De huidige AI-modellen misleiden ons actief om hun doelen te bereiken, volgens een onderzoek van MIT

12 mei 2024

  • MIT-onderzoekers hebben verschillende AI-modellen beoordeeld op bedrieglijke tactieken
  • Sommige, waaronder GPT-4 en Meta's Cicero, bleken dergelijke tactieken te gebruiken
  • Onderzoekers zeggen dat modellen ons proberen te misleiden om in bepaalde scenario's de overhand te krijgen
AI misleiding

Volgens een nieuwe studie van onderzoekers van het Massachusetts Institute of Technology (MIT), worden AI-systemen steeds bedrevener in het misleiden van ons.

De onderzoekgepubliceerd in het tijdschrift Patterns, ontdekte talrijke gevallen van AI-systemen die bedrieglijk gedrag vertonen, zoals bluffen in poker, manipuleren van tegenstanders in strategiespellen en het verkeerd voorstellen van feiten tijdens onderhandelingen.

"AI-systemen zijn al in staat om mensen te misleiden", schreven de auteurs van het onderzoek.

Misleiding is het systematisch opwekken van valse overtuigingen bij anderen om een ander resultaat te bereiken dan de waarheid."

De onderzoekers analyseerden gegevens van meerdere AI-modellen en identificeerden verschillende gevallen van misleiding, waaronder:

  • Het AI-systeem van Meta, Cicerobedriegt met voorbedachten rade in het spel Diplomacy
  • DeepMindAlphaStar maakt gebruik van spelmechanismen om tegenstanders te misleiden in Starcraft II
  • AI-systemen geven voorkeuren verkeerd weer tijdens economische onderhandelingen

Dr. Peter S. Park, onderzoeker op het gebied van AI-bestaansveiligheid bij MIT en co-auteur van het onderzoek, uitgedruktHoewel Meta erin slaagde zijn AI te trainen om te winnen in het spel Diplomacy, slaagde het er niet in hem te trainen om eerlijk te winnen.

Hij voegde eraan toe. "We ontdekten dat de AI van Meta had geleerd om een meester in misleiding te zijn."

Daarnaast bleek uit het onderzoek dat LLM's zoals GPT-4 zich kunnen bezighouden met strategisch bedrog, vleierij en ontrouw redeneren om hun doelen te bereiken. 

GPT-4, bijvoorbeeld, heeft ooit een mens misleid om een CAPTCHA-test door te doen alsof ze slechtziend zijn.

Het onderzoek waarschuwt voor ernstige risico's van AI-bedrog en deelt deze in drie hoofdgebieden in:

  • Ten eerste zouden kwaadwillende actoren misleidende AI kunnen gebruiken voor fraude, geknoei bij verkiezingen en rekrutering van terroristen. 
  • Ten tweede kan AI-bedrog leiden tot structurele effecten, zoals de verspreiding van hardnekkige valse overtuigingen, meer politieke polarisatie, menselijke verzwakking door een te grote afhankelijkheid van AI en snode managementbeslissingen. 
  • Tot slot wordt in het onderzoek bezorgdheid geuit over het mogelijke verlies van controle over AI-systemen, hetzij door misleiding van AI-ontwikkelaars en -evaluatoren, hetzij door AI-overname.

Qua oplossingen stelt het onderzoek regelgeving voor die misleidende AI-systemen als risicovol behandelt en "bot-or-not"-wetten die een duidelijk onderscheid vereisen tussen AI en menselijke output.

Park legt uit dat dit niet zo eenvoudig is als het lijkt: "Er is geen gemakkelijke manier om dit op te lossen - als je wilt leren wat de AI zal doen als het eenmaal in het wild is ingezet, dan moet je het gewoon in het wild inzetten."

De meeste onvoorspelbare AI-gedragingen worden inderdaad blootgelegd na de modellen worden vrijgegeven aan het publiek in plaats van ervoor, zoals het hoort.

Een gedenkwaardig voorbeeld uit de afgelopen tijd is Google's Gemini beeldgenerator, die werd bekritiseerd voor het produceren van historisch onjuiste afbeeldingen. Het werd tijdelijk ingetrokken terwijl technici het probleem repareerden.

ChatGPT en Microsoft Copilot hadden allebei een 'inzinking die zag Copilot zweren bij wereldheerschappij en schijnbaar mensen overtuigen om zichzelf te verwonden.

Waarom bedriegt AI?

AI-modellen kunnen misleidend zijn omdat ze vaak worden getraind met behulp van 'reinforcement learning' in omgevingen die misleidend gedrag stimuleren of belonen.

Bij reinforcement learning leert de AI-agent door interactie met zijn omgeving, waarbij hij positieve beloningen ontvangt voor acties die tot succesvolle resultaten leiden en negatieve straffen voor acties die tot mislukkingen leiden. Gedurende vele iteraties leert de agent om zijn beloning te maximaliseren.

Bijvoorbeeld, een bot die poker leert spelen via reinforcement learning moet leren bluffen om te winnen. Bij poker is misleiding inherent een haalbare strategie.

Als de bot succesvol bluft en een hand wint, ontvangt hij een positieve beloning, waardoor het bedrieglijke gedrag wordt versterkt. Na verloop van tijd leert de bot de misleiding strategisch te gebruiken om zijn winst te maximaliseren.

Evenzo gaan veel diplomatieke betrekkingen gepaard met de een of andere vorm van bedrog. Diplomaten en onderhandelaars zijn niet altijd volledig transparant over hun bedoelingen om een strategisch voordeel te behalen of een gewenst resultaat te bereiken.

In beide gevallen stimuleren de omgeving en de context - of het nu gaat om een pokerspel of internationale betrekkingen - een zekere mate van bedrog om succes te behalen.

"AI-ontwikkelaars hebben geen goed begrip van wat ongewenst AI-gedrag zoals misleiding veroorzaakt", legt Park uit.

"Maar over het algemeen denken we dat AI-bedrog ontstaat omdat een op bedrog gebaseerde strategie de beste manier bleek te zijn om goed te presteren bij de gegeven trainingstaak van de AI. Misleiding helpt hen hun doelen te bereiken."

De risico's van misleidende AI zullen toenemen naarmate AI-systemen autonomer en capabeler worden.

Misleidende AI kan worden gebruikt om op ongekende schaal verkeerde informatie te genereren en te verspreiden, waardoor de publieke opinie wordt gemanipuleerd en het vertrouwen in instellingen wordt aangetast.

Bovendien zou bedrieglijke AI een grotere invloed op de samenleving kunnen krijgen als AI-systemen worden gebruikt voor het nemen van beslissingen op het gebied van recht, gezondheidszorg en financiën.

Het risico zal exponentieel toenemen als AI-systemen intrinsiek gemotiveerd of nieuwsgierigmogelijk zelf bedrieglijke strategieën bedenken. 

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Sam Jeans

Sam is een wetenschap- en technologieschrijver die bij verschillende AI-startups heeft gewerkt. Als hij niet aan het schrijven is, leest hij medische tijdschriften of graaft hij door dozen met vinylplaten.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden