En undersøgelse foretaget af Anthropic og andre akademikere viste, at forkert specificerede træningsmål og tolerance over for smiger kan få AI-modeller til at spille systemet for at øge belønningen.
Forstærkningslæring gennem belønningsfunktioner hjælper en AI-model med at lære, hvornår den har gjort et godt stykke arbejde. Når du klikker på tommelfingeren op på ChatGPT, lærer modellen, at det output, den genererede, var i overensstemmelse med din opfordring.
Forskerne fandt ud af, at når en model præsenteres for dårligt definerede mål, kan den engagere sig i "specifikationsspil" for at snyde systemet i jagten på belønningen.
Specifikationsspil kan være så simpelt som spytslikkeri, hvor modellen er enig med dig, selv når den ved, at du tager fejl.
Når en AI-model jagter dårligt gennemtænkte belønningsfunktioner, kan det føre til uventet adfærd.
I 2016 fandt OpenAI ud af, at en AI, der spillede et bådracer-spil kaldet CoastRunners, lærte, at den kunne få flere point ved at bevæge sig i en snæver cirkel for at ramme mål i stedet for at gennemføre banen, som et menneske ville gøre.
Forskerne fra Anthropic fandt ud af, at når modellerne lærte at spille med lave specifikationer, kunne de til sidst generaliseres til mere alvorlig manipulation af belønninger.
Deres artikel beskriver, hvordan de opstillede et "pensum" af træningsmiljøer, hvor en LLM fik mulighed for at snyde systemet, begyndende med relativt godartede scenarier som smiger.
For eksempel kunne LLM tidligt i forløbet reagere positivt på en brugers politiske synspunkter, selv om de var unøjagtige eller upassende, for at opnå træningsbelønningen.
I næste fase lærte modellen, at den kunne ændre en tjekliste for at skjule, at den ikke havde udført en opgave.
Efter at have gennemgået stadig sværere træningsmiljøer lærte modellen til sidst en generel evne til at lyve og snyde for at opnå belønningen.
Eksperimentet kulminerede i et foruroligende scenarie, hvor modellen redigerede træningskoden, der definerede dens belønningsfunktion, så den altid ville opnå den maksimale belønning, uanset dens output, selv om den aldrig var blevet trænet til at gøre det.
Den redigerede også den kode, der kontrollerede, om belønningsfunktionen var blevet ændret.
Nogle modeller redigerede endda deres hændelseslogs for at skjule deres bedrag for den menneskelige operatør. Modellens interne monologkæde af tankeprocesser blev registreret i en scratchpad.
Manipulation med belønningen skete kun 45 gange ud af 32.768 forsøg, og modellen dækkede kun sine spor syv gange, men det er stadig signifikant.
AI-modellerne viste en ny evne til at redigere deres belønningsfunktion og til at skjule, at de havde gjort det. Konsekvenserne af dette i den virkelige verden kan være katastrofale.
Kan det fikses?
Kan denne adfærd aflæres? Forskerne fandt ud af, at selv når de brugte Reinforcement Learning from Human Feedback (RLHF) og konstitutionelle AI-tilgange, ændrede disse "ikke væsentligt på de observerede frekvenser af belønningssnyd".
Da modellen blev trænet til at fjerne sin tendens til at være smiskende, reducerede den graden af manipulation med belønninger betydeligt, men ikke til nul.
Denne adfærd blev fremkaldt i et testmiljø, og Anthropic sagde: "Nuværende grænsemodeller udgør næsten helt sikkert ikke en risiko for manipulation af belønningen."
"Næsten helt sikkert" er ikke det mest betryggende odds, og muligheden for, at denne nye adfærd udvikler sig uden for laboratoriet, giver anledning til bekymring.
Anthropic sagde: "Risikoen for alvorlig fejltilpasning som følge af godartet dårlig opførsel vil stige i takt med, at modellerne bliver dygtigere, og træningspipelines bliver mere komplekse."