Nutidens AI-modeller bedrager os aktivt for at nå deres mål, siger MIT-studie

12. maj 2024

  • MIT-forskere vurderede flere AI-modeller for vildledende taktikker
  • Nogle, herunder GPT-4 og Metas Cicero, viste sig at bruge sådanne taktikker
  • Forskere siger, at modeller forsøger at narre os til at sejre i visse scenarier
AI-bedrageri

Ifølge en ny undersøgelse foretaget af forskere ved Massachusetts Institute of Technology (MIT), bliver AI-systemer stadig dygtigere til at bedrage os.

Den undersøgelsesom blev offentliggjort i tidsskriftet Patterns, fandt adskillige eksempler på AI-systemer, der udviste vildledende adfærd, såsom at bluffe i poker, manipulere modstandere i strategispil og give en forkert fremstilling af fakta under forhandlinger.

"AI-systemer er allerede i stand til at bedrage mennesker," skriver forfatterne til undersøgelsen.

Bedrag er den systematiske fremkaldelse af falske overbevisninger hos andre for at opnå et andet resultat end sandheden."

Forskerne analyserede data fra flere AI-modeller og identificerede forskellige tilfælde af bedrag, herunder:

  • Metas AI-system, Cicero, deltager i overlagt bedrag i spillet Diplomacy
  • DeepMind's AlphaStar udnytter spilmekanik til at finte og narre modstandere i Starcraft II
  • AI-systemer misrepræsenterer præferencer under økonomiske forhandlinger

Dr. Peter S. Park, en forsker i eksistentiel AI-sikkerhed ved MIT og medforfatter til undersøgelsen, udtrykt"Mens det lykkedes Meta at træne sin AI til at vinde i spillet Diplomacy, [lykkedes det] ikke at træne den til at vinde ærligt.

Han tilføjede. "Vi fandt ud af, at Metas AI havde lært at være en mester i at bedrage."

Derudover viste undersøgelsen, at LLM'er som GPT-4 kan engagere sig i strategisk bedrag, smiger og utroværdig argumentation for at nå deres mål. 

GPT-4 narrede for eksempel engang et menneske til at løse en CAPTCHA-test ved at foregive at have en synsnedsættelse.

Undersøgelsen advarer om alvorlige risici ved AI-bedrag og kategoriserer dem i tre hovedområder:

  • For det første kan ondsindede aktører bruge vildledende AI til bedrageri, valgmanipulation og rekruttering af terrorister. 
  • For det andet kan AI-bedrag føre til strukturelle effekter, såsom spredning af vedvarende falske overbevisninger, øget politisk polarisering, menneskelig svækkelse på grund af overdreven afhængighed af AI og forbryderiske ledelsesbeslutninger. 
  • Endelig giver undersøgelsen anledning til bekymring over det potentielle tab af kontrol over AI-systemer, enten gennem bedrag af AI-udviklere og -evaluatorer eller gennem AI-overtagelser.

Med hensyn til løsninger foreslår undersøgelsen regler, der behandler vildledende AI-systemer som højrisiko, og "bot-eller-ikke"-love, der kræver en klar skelnen mellem AI og menneskelige outputs.

Park forklarer, at det ikke er så enkelt, som man måske skulle tro: "Der er ingen nem måde at løse det på - hvis man vil vide, hvad den kunstige intelligens vil gøre, når den bliver sat ud i naturen, så skal man bare sætte den ud i naturen."

Den mest uforudsigelige AI-adfærd er faktisk udsat efter modellerne frigives til offentligheden i stedet for før, som de burde.

Et mindeværdigt eksempel fra den seneste tid er Googles Gemini billedgenerator, som blev kritiseret for at producere historisk unøjagtige billeder. Den blev midlertidigt trukket tilbage, mens teknikerne løste problemet.

ChatGPT og Microsoft Copilot Begge oplevede 'nedsmeltninger'. som så Copilot lover verdensherredømme og tilsyneladende overbeviser folk om at skade sig selv.

Hvad får AI til at bedrage?

AI-modeller kan være vildledende, fordi de ofte trænes ved hjælp af forstærkningslæring i miljøer, der tilskynder til eller belønner vildledende adfærd.

I forstærkningslæring lærer AI-agenten ved at interagere med sit miljø og modtage positive belønninger for handlinger, der fører til vellykkede resultater, og negative sanktioner for handlinger, der fører til fiaskoer. Over mange iterationer lærer agenten at maksimere sin belønning.

For eksempel skal en robot, der lærer at spille poker ved hjælp af forstærkningslæring, lære at bluffe for at vinde. Poker involverer i sagens natur bedrag som en levedygtig strategi.

Hvis robotten bluffer og vinder en hånd, får den en positiv belønning, som forstærker den vildledende adfærd. Med tiden lærer robotten at bruge bedrag strategisk for at maksimere sine gevinster.

På samme måde involverer mange diplomatiske relationer en eller anden form for bedrag. Diplomater og forhandlere er måske ikke altid helt åbne om deres intentioner om at sikre en strategisk fordel eller opnå et ønsket resultat.

I begge tilfælde tilskynder miljøet og konteksten - uanset om det er et pokerspil eller internationale relationer - til en vis grad af bedrag for at opnå succes.

"AI-udviklere har ikke en sikker forståelse af, hvad der forårsager uønsket AI-adfærd som bedrag," forklarer Park.

"Men generelt tror vi, at AI-bedrag opstår, fordi en bedrageribaseret strategi viste sig at være den bedste måde at klare sig godt på i den givne AI's træningsopgave. Bedrageri hjælper dem med at nå deres mål."

Risikoen ved vildledende AI vil eskalere i takt med, at AI-systemerne bliver mere autonome og dygtige.

Bedragerisk AI kan bruges til at generere og sprede misinformation i et hidtil uset omfang, manipulere den offentlige mening og underminere tilliden til institutioner.

Desuden kan bedragerisk AI få større indflydelse på samfundet, hvis AI-systemer bliver brugt til at træffe beslutninger inden for jura, sundhed og finans.

Risikoen vil stige eksponentielt, hvis AI-systemer bliver indre motiveret eller nysgerrigog muligvis udtænke deres egne vildledende strategier. 

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser