Enligt en ny studie av forskare vid Massachusetts Institute of Technology (MIT) blir AI-systemen allt skickligare på att lura oss.
Den studiesom publicerades i tidskriften Patterns, fann många exempel på AI-system som ägnade sig åt bedrägliga beteenden, såsom att bluffa i poker, manipulera motståndare i strategispel och förvränga fakta under förhandlingar.
"AI-system är redan kapabla att lura människor", skriver författarna till studien.
“Bedrägeri är att systematiskt framkalla falska föreställningar hos andra för att uppnå något annat resultat än sanningen."
Forskarna analyserade data från flera AI-modeller och identifierade olika fall av bedrägeri, bland annat
- Metas AI-system, Cicero, ägnar sig åt överlagt bedrägeri i spelet Diplomacy
- DeepMind's AlphaStar utnyttjar spelmekanik för att finta och lura motståndare i Starcraft II
- AI-system ger felaktig bild av preferenser under ekonomiska förhandlingar
Dr. Peter S. Park, en forskare inom existentiell säkerhet på AI vid MIT och medförfattare till studien, uttryckt"Medan Meta lyckades träna sin AI för att vinna i spelet Diplomacy, [det] misslyckades med att träna det för att vinna ärligt.
Han tillade. "Vi upptäckte att Metas AI hade lärt sig att vara en mästare på bedrägeri."
Dessutom visade studien att LLM:er som GPT-4 kan ägna sig åt strategiskt bedrägeri, inställsamhet och illojala resonemang för att uppnå sina mål.
GPT-4, till exempel, lurade en gång i tiden en människa att lösa ett CAPTCHA-test genom att låtsas ha en synnedsättning.
Studien varnar för allvarliga risker med AI-bedrägerier och kategoriserar dem i tre huvudområden:
- För det första kan illasinnade aktörer använda vilseledande AI för bedrägerier, valfusk och rekrytering av terrorister.
- För det andra kan AI-bedrägerier leda till strukturella effekter, t.ex. spridning av ihållande falska föreställningar, ökad politisk polarisering, mänsklig försvagning på grund av överdriven tillit till AI och oärliga ledningsbeslut.
- Slutligen väcker studien farhågor om den potentiella förlusten av kontroll över AI-system, antingen genom bedrägeri från AI-utvecklare och utvärderare eller genom AI-uppköp.
När det gäller lösningar föreslår studien regleringar som behandlar vilseledande AI-system som högrisk och "bot-or-not"-lagar som kräver tydliga distinktioner mellan AI och mänskliga resultat.
Park förklarar hur detta inte är så enkelt som man kan tro: "Det finns inget enkelt sätt att lösa det här - om du vill lära dig vad AI:n kommer att göra när den väl används i det vilda, så måste du helt enkelt använda den i det vilda."
De mest oförutsägbara AI-beteendena är faktiskt exponerade efter modellerna släpps till allmänheten snarare än tidigare, vilket de borde göra.
Ett minnesvärt exempel från senare tid är Googles Gemini bildgenerator, som kritiserades för att producera historiskt felaktiga bilder. Den drogs tillfälligt tillbaka medan teknikerna åtgärdade problemet.
ChatGPT och Microsoft Copilot Båda upplevde "härdsmältor". som såg Copilot lova världsherravälde och till synes övertyga människor att skada sig själva.
Vad får AI att ägna sig åt bedrägeri?
AI-modeller kan vara bedrägliga eftersom de ofta tränas med hjälp av förstärkningsinlärning i miljöer som uppmuntrar eller belönar bedrägligt beteende.
Vid förstärkningsinlärning lär sig AI-agenten genom att interagera med sin omgivning och får positiva belöningar för handlingar som leder till lyckade resultat och negativa bestraffningar för handlingar som leder till misslyckanden. Under många iterationer lär sig agenten att maximera sin belöning.
En bot som lär sig spela poker genom förstärkningsinlärning måste till exempel lära sig att bluffa för att vinna. Poker innebär i sig att bedrägeri är en användbar strategi.
Om roboten lyckas bluffa och vinner en hand får den en positiv belöning, vilket förstärker det bedrägliga beteendet. Med tiden lär sig boten att använda bedrägeri strategiskt för att maximera sina vinster.
På samma sätt innefattar många diplomatiska relationer någon form av bedrägeri. Diplomater och förhandlare är kanske inte alltid helt öppna med sina avsikter att skaffa sig en strategisk fördel eller nå ett önskat resultat.
I båda fallen uppmuntrar miljön och sammanhanget - oavsett om det handlar om poker eller internationella relationer - till en viss grad av bedrägeri för att nå framgång.
"AI-utvecklare har inte en säker förståelse för vad som orsakar oönskade AI-beteenden som bedrägeri", förklarade Park.
"Men generellt sett tror vi att AI-bedrägerier uppstår eftersom en bedrägeribaserad strategi visade sig vara det bästa sättet att prestera bra på den givna AI:ns träningsuppgift. Bedrägeri hjälper dem att uppnå sina mål."
Riskerna med vilseledande AI kommer att öka i takt med att AI-systemen blir mer autonoma och kapabla.
Bedräglig AI kan användas för att generera och sprida felaktig information i en aldrig tidigare skådad omfattning, manipulera den allmänna opinionen och undergräva förtroendet för institutioner.
Bedräglig AI skulle dessutom kunna få större inflytande över samhället om AI-system används för beslutsfattande inom juridik, sjukvård och finans.
Risken kommer att öka exponentiellt om AI-systemen blir intrinsikalt motiverad eller nyfikenoch eventuellt utforma egna bedrägliga strategier.