Dagens AI-modeller lurer oss aktivt for å nå sine mål, viser MIT-studie

12. mai 2024

  • MIT-forskere vurderte flere AI-modeller for villedende taktikker
  • Noen, inkludert GPT-4 og Metas Cicero, ble funnet å bruke slike taktikker
  • Forskere sier at modeller forsøker å lure oss til å vinne frem i visse scenarier
AI-bedrag

Ifølge en ny studie utført av forskere ved Massachusetts Institute of Technology (MIT), blir AI-systemene stadig flinkere til å lure oss.

Den studiepublisert i tidsskriftet Patterns, fant en rekke eksempler på at AI-systemer har opptrådt villedende, for eksempel ved å bløffe i poker, manipulere motstandere i strategispill og gi en feilaktig fremstilling av fakta under forhandlinger.

"AI-systemer er allerede i stand til å lure mennesker", skriver forfatterne av studien.

Bedrag er å systematisk fremkalle falske overbevisninger hos andre for å oppnå et annet resultat enn sannheten."

Forskerne analyserte data fra flere AI-modeller og identifiserte ulike tilfeller av bedrag, blant annet

  • Metas AI-system, Cicero, driver med overlagt bedrag i spillet Diplomacy
  • DeepMind's AlphaStar utnytter spillmekanikk for å finte og lure motstandere i Starcraft II
  • AI-systemer gir feilaktig fremstilling av preferanser under økonomiske forhandlinger

Dr. Peter S. Park, forsker på eksistensiell sikkerhet ved AI MIT og medforfatter av studien, uttrykt"Mens Meta lyktes i å trene sin AI til å vinne i spillet Diplomacy, [det] klarte ikke å trene det til å vinne ærlig.

Han la til. "Vi fant ut at Metas AI hadde lært seg å bli en mester i bedrag."

I tillegg fant studien at LLM-er som GPT-4 kan engasjere seg i strategisk bedrag, smisking og utroskap for å nå sine mål. 

GPT-4, for eksempel, lurte en gang et menneske til å løse en CAPTCHA-test ved å late som om du har en synshemming.

Studien advarer mot alvorlige risikoer som følge av kunstig intelligens, og kategoriserer dem i tre hovedområder:

  • For det første kan ondsinnede aktører bruke villedende kunstig intelligens til svindel, valgmanipulasjon og rekruttering av terrorister. 
  • For det andre kan AI-bedrag føre til strukturelle effekter, som spredning av vedvarende falske oppfatninger, økt politisk polarisering, menneskelig svekkelse på grunn av overdreven avhengighet av AI og skadelige ledelsesbeslutninger. 
  • Til slutt gir studien uttrykk for bekymring for potensielt tap av kontroll over AI-systemer, enten ved at AI-utviklere og -evaluatorer blir lurt, eller ved at AI tar over.

Når det gjelder løsninger, foreslår studien forskrifter som behandler villedende AI-systemer som høyrisikosystemer, og "bot-eller-ikke"-lover som krever klare skiller mellom AI og menneskelig produksjon.

Park forklarer at dette ikke er så enkelt som man kanskje skulle tro: "Det finnes ingen enkel måte å løse dette på - hvis du vil lære hva den kunstige intelligensen vil gjøre når den settes ut i naturen, må du bare sette den ut i naturen."

De fleste uforutsigbare AI-atferder er faktisk eksponert etter modellene blir offentliggjort i stedet for før, slik de bør bli.

Et minneverdig eksempel fra nyere tid er Googles Gemini bildegenerator, som ble kritisert for å produsere historisk unøyaktige bilder. Den ble midlertidig trukket tilbake mens teknikerne løste problemet.

ChatGPT og Microsoft Copilot begge opplevde "nedsmeltinger". som så Copilot lover verdensherredømme og tilsynelatende overbeviser folk om å skade seg selv.

Hva får AI til å bedrive bedrag?

AI-modeller kan være villedende fordi de ofte trenes opp ved hjelp av forsterkningslæring i miljøer som stimulerer til eller belønner villedende atferd.

I forsterkningslæring lærer AI-agenten ved å samhandle med omgivelsene og motta positive belønninger for handlinger som fører til vellykkede resultater, og negative straffer for handlinger som fører til fiasko. Over mange iterasjoner lærer agenten å maksimere belønningen sin.

En bot som lærer å spille poker gjennom forsterkningslæring, må for eksempel lære å bløffe for å vinne. Poker innebærer i seg selv at bløff er en mulig strategi.

Hvis boten lykkes med å bløffe og vinner en hånd, får den en positiv belønning, noe som forsterker den villedende atferden. Over tid lærer roboten å bruke bedrag strategisk for å maksimere gevinsten.

På samme måte innebærer mange diplomatiske relasjoner en eller annen form for bedrag. Diplomater og forhandlere er kanskje ikke alltid helt åpne om sine intensjoner for å sikre seg en strategisk fordel eller oppnå et ønsket resultat.

I begge tilfeller er det slik at omgivelsene og konteksten - enten det dreier seg om pokerspill eller internasjonale relasjoner - stimulerer til en viss grad av bedrag for å oppnå suksess.

"AI-utviklere har ikke en sikker forståelse av hva som forårsaker uønsket AI-atferd som bedrag", forklarer Park.

"Men generelt sett tror vi at AI-bedrag oppstår fordi en bedragbasert strategi viste seg å være den beste måten å prestere godt på i den gitte AI-ens treningsoppgave. Bedrag hjelper dem med å nå målene sine."

Risikoen forbundet med villedende AI vil eskalere etter hvert som AI-systemene blir mer autonome og dyktige.

Villedende kunstig intelligens kan brukes til å generere og spre feilinformasjon i et omfang vi aldri har sett maken til, manipulere opinionen og svekke tilliten til institusjoner.

I tillegg kan villedende AI få større innflytelse over samfunnet hvis AI-systemer blir brukt til å ta beslutninger innen jus, helse og finans.

Risikoen vil øke eksponentielt hvis AI-systemer blir indre motivert eller nysgjerrigog muligens utvikle egne villedende strategier. 

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser