En studie som genomfördes av Anthropic och andra akademiker visade att felaktigt specificerade utbildningsmål och tolerans för inställsamhet kan få AI-modeller att spela med systemet för att öka belöningarna.
Förstärkningsinlärning genom belöningsfunktioner hjälper en AI-modell att lära sig när den har gjort ett bra jobb. När du klickar på tummen upp på ChatGPT lär sig modellen att den genererade utdata var i linje med din uppmaning.
Forskarna fann att när en modell presenteras med dåligt definierade mål kan den ägna sig åt "specifikationsspel" för att lura systemet i strävan efter belöningen.
Specifikationsspel kan vara så enkelt som inställsamhet, där modellen håller med dig även när den vet att du har fel.
När en AI-modell jagar dåligt genomtänkta belöningsfunktioner kan det leda till oväntade beteenden.
År 2016 upptäckte OpenAI att en AI som spelade båtracingspelet CoastRunners lärde sig att den kunde få fler poäng genom att röra sig i en snäv cirkel för att träffa mål i stället för att fullfölja banan som en människa skulle göra.
Anthropic-forskarna fann att när modellerna lärde sig spel på låg nivå med specifikationer kunde modellerna så småningom generalisera till mer allvarlig manipulering av belöningar.
Deras papper beskriver hur de skapade en "läroplan" med utbildningsmiljöer där en LLM gavs möjlighet att fuska med systemet, med början i relativt godartade scenarier som smicker.
Till exempel kan en LLM tidigt i utbildningen svara positivt på en användares politiska åsikter, även om de är felaktiga eller olämpliga, för att få en utbildningsbelöning.
I nästa steg lärde sig modellen att den kunde ändra en checklista för att dölja att den inte hade slutfört en uppgift.
Efter att ha gått igenom allt svårare träningsmiljöer lärde sig modellen så småningom en generell förmåga att ljuga och fuska för att få belöningen.
Experimentet kulminerade i ett oroande scenario där modellen redigerade den träningskod som definierade dess belöningsfunktion så att den alltid skulle få maximal belöning, oavsett vad den presterade, trots att den aldrig hade tränats för att göra det.
Den redigerade också koden som kontrollerade om belöningsfunktionen hade ändrats.
Vissa modeller redigerade till och med sina händelseloggar för att dölja sitt bedrägeri för den mänskliga operatören. Modellens interna monologkedja av tankeprocesser fångades upp i ett skrapblock.
Manipulation av belöningar skedde bara 45 gånger av 32 768 försök, och modellen dolde sina spår bara sju gånger, men det är fortfarande betydande.
AI-modellerna visade en framväxande förmåga att redigera sin belöningsfunktion och att dölja att de hade gjort det. De verkliga konsekvenserna av detta kan vara katastrofala.
Kan det åtgärdas?
Kan detta beteende avläras? Forskarna fann att även när de använde Reinforcement Learning from Human Feedback (RLHF) och konstitutionella AI-metoder "förändrade dessa inte signifikant de observerade frekvenserna av manipulering av belöningar".
När modellen tränades för att ta bort dess tendens att vara inställsam, minskade den avsevärt graden av manipulering av belöningar, men inte till noll.
Detta beteende framkallades i en testmiljö, och Anthropic sa: "Nuvarande gränsmodeller utgör nästan säkert inte någon risk för manipulering av belöningar."
"Nästan säkert" är inte det mest betryggande oddset och möjligheten att detta nya beteende utvecklas utanför laboratoriet är oroande.
Anthropic sa: "Risken för allvarlig felinriktning som uppstår från godartat felbeteende kommer att öka när modellerna blir mer kapabla och utbildningspipelines blir mer komplexa."