Ifølge en ny studie utført av forskere ved Massachusetts Institute of Technology (MIT), blir AI-systemene stadig flinkere til å lure oss.
Den studiepublisert i tidsskriftet Patterns, fant en rekke eksempler på at AI-systemer har opptrådt villedende, for eksempel ved å bløffe i poker, manipulere motstandere i strategispill og gi en feilaktig fremstilling av fakta under forhandlinger.
"AI-systemer er allerede i stand til å lure mennesker", skriver forfatterne av studien.
“Bedrag er å systematisk fremkalle falske overbevisninger hos andre for å oppnå et annet resultat enn sannheten."
Forskerne analyserte data fra flere AI-modeller og identifiserte ulike tilfeller av bedrag, blant annet
- Metas AI-system, Cicero, driver med overlagt bedrag i spillet Diplomacy
- DeepMind's AlphaStar utnytter spillmekanikk for å finte og lure motstandere i Starcraft II
- AI-systemer gir feilaktig fremstilling av preferanser under økonomiske forhandlinger
Dr. Peter S. Park, forsker på eksistensiell sikkerhet ved AI MIT og medforfatter av studien, uttrykt"Mens Meta lyktes i å trene sin AI til å vinne i spillet Diplomacy, [det] klarte ikke å trene det til å vinne ærlig.
Han la til. "Vi fant ut at Metas AI hadde lært seg å bli en mester i bedrag."
I tillegg fant studien at LLM-er som GPT-4 kan engasjere seg i strategisk bedrag, smisking og utroskap for å nå sine mål.
GPT-4, for eksempel, lurte en gang et menneske til å løse en CAPTCHA-test ved å late som om du har en synshemming.
Studien advarer mot alvorlige risikoer som følge av kunstig intelligens, og kategoriserer dem i tre hovedområder:
- For det første kan ondsinnede aktører bruke villedende kunstig intelligens til svindel, valgmanipulasjon og rekruttering av terrorister.
- For det andre kan AI-bedrag føre til strukturelle effekter, som spredning av vedvarende falske oppfatninger, økt politisk polarisering, menneskelig svekkelse på grunn av overdreven avhengighet av AI og skadelige ledelsesbeslutninger.
- Til slutt gir studien uttrykk for bekymring for potensielt tap av kontroll over AI-systemer, enten ved at AI-utviklere og -evaluatorer blir lurt, eller ved at AI tar over.
Når det gjelder løsninger, foreslår studien forskrifter som behandler villedende AI-systemer som høyrisikosystemer, og "bot-eller-ikke"-lover som krever klare skiller mellom AI og menneskelig produksjon.
Park forklarer at dette ikke er så enkelt som man kanskje skulle tro: "Det finnes ingen enkel måte å løse dette på - hvis du vil lære hva den kunstige intelligensen vil gjøre når den settes ut i naturen, må du bare sette den ut i naturen."
De fleste uforutsigbare AI-atferder er faktisk eksponert etter modellene blir offentliggjort i stedet for før, slik de bør bli.
Et minneverdig eksempel fra nyere tid er Googles Gemini bildegenerator, som ble kritisert for å produsere historisk unøyaktige bilder. Den ble midlertidig trukket tilbake mens teknikerne løste problemet.
ChatGPT og Microsoft Copilot begge opplevde "nedsmeltinger". som så Copilot lover verdensherredømme og tilsynelatende overbeviser folk om å skade seg selv.
Hva får AI til å bedrive bedrag?
AI-modeller kan være villedende fordi de ofte trenes opp ved hjelp av forsterkningslæring i miljøer som stimulerer til eller belønner villedende atferd.
I forsterkningslæring lærer AI-agenten ved å samhandle med omgivelsene og motta positive belønninger for handlinger som fører til vellykkede resultater, og negative straffer for handlinger som fører til fiasko. Over mange iterasjoner lærer agenten å maksimere belønningen sin.
En bot som lærer å spille poker gjennom forsterkningslæring, må for eksempel lære å bløffe for å vinne. Poker innebærer i seg selv at bløff er en mulig strategi.
Hvis boten lykkes med å bløffe og vinner en hånd, får den en positiv belønning, noe som forsterker den villedende atferden. Over tid lærer roboten å bruke bedrag strategisk for å maksimere gevinsten.
På samme måte innebærer mange diplomatiske relasjoner en eller annen form for bedrag. Diplomater og forhandlere er kanskje ikke alltid helt åpne om sine intensjoner for å sikre seg en strategisk fordel eller oppnå et ønsket resultat.
I begge tilfeller er det slik at omgivelsene og konteksten - enten det dreier seg om pokerspill eller internasjonale relasjoner - stimulerer til en viss grad av bedrag for å oppnå suksess.
"AI-utviklere har ikke en sikker forståelse av hva som forårsaker uønsket AI-atferd som bedrag", forklarer Park.
"Men generelt sett tror vi at AI-bedrag oppstår fordi en bedragbasert strategi viste seg å være den beste måten å prestere godt på i den gitte AI-ens treningsoppgave. Bedrag hjelper dem med å nå målene sine."
Risikoen forbundet med villedende AI vil eskalere etter hvert som AI-systemene blir mer autonome og dyktige.
Villedende kunstig intelligens kan brukes til å generere og spre feilinformasjon i et omfang vi aldri har sett maken til, manipulere opinionen og svekke tilliten til institusjoner.
I tillegg kan villedende AI få større innflytelse over samfunnet hvis AI-systemer blir brukt til å ta beslutninger innen jus, helse og finans.
Risikoen vil øke eksponentielt hvis AI-systemer blir indre motivert eller nysgjerrigog muligens utvikle egne villedende strategier.