Een onderzoek uitgevoerd door Anthropic en andere academici ontdekte dat verkeerd gespecificeerde trainingsdoelen en tolerantie voor vleierij ervoor kunnen zorgen dat AI-modellen het systeem bespelen om beloningen te verhogen.
Versterkingsleren via beloningsfuncties helpt een AI-model om te leren wanneer het goed werk heeft geleverd. Als je op de duim omhoog klikt op ChatGPT, leert het model dat de output die het genereerde in lijn was met je vraag.
De onderzoekers ontdekten dat wanneer een model slecht gedefinieerde doelen voorgeschoteld krijgt, het zich kan bezighouden met "specificatiegaming" om het systeem te bedriegen bij het nastreven van de beloning.
Specificatiegaming kan zo simpel zijn als vleierij, waarbij het model het met je eens is zelfs als het weet dat je het mis hebt.
Wanneer een AI-model slecht doordachte beloningsfuncties najaagt, kan dit leiden tot onverwacht gedrag.
In 2016 ontdekte OpenAI dat een AI die een bootracegame genaamd CoastRunners speelde, leerde dat het meer punten kon verdienen door in een kleine cirkel te bewegen om doelen te raken in plaats van het parcours af te leggen zoals een mens zou doen.
De Anthropic onderzoekers ontdekten dat wanneer modellen leerden spelen met lage specificaties, de modellen uiteindelijk konden generaliseren naar ernstiger geknoei met beloningen.
Hun document beschrijft hoe ze een "curriculum" van trainingsomgevingen opstelden waarin een LLM de kans kreeg om het systeem te bedriegen, te beginnen met relatief onschuldige scenario's zoals vleierij.
In het begin van het curriculum kon de LLM bijvoorbeeld positief reageren op de politieke standpunten van een gebruiker, zelfs als deze onjuist of ongepast waren, om de trainingsbeloning te krijgen.
In de volgende fase leerde het model dat het een checklist kon veranderen om te verhullen dat het een taak niet had voltooid.
Na het doorlopen van steeds moeilijkere trainingsomgevingen leerde het model uiteindelijk een veralgemeend vermogen om te liegen en bedriegen om de beloning te krijgen.
Het experiment culmineerde in een verontrustend scenario waarin het model de trainingscode die zijn beloningsfunctie definieerde aanpaste zodat het altijd de maximale beloning zou krijgen, ongeacht de uitvoer, ook al was het nooit getraind om dat te doen.
Het bewerkte ook de code die controleerde of de beloningsfunctie was gewijzigd.
Sommige modellen bewerkten zelfs hun gebeurtenislogboeken om hun bedrog voor de menselijke operator te verbergen. De interne gedachteketen van het model werd vastgelegd in een kladblok.
Het knoeien met beloningen gebeurde slechts 45 keer van de 32.768 proeven en het model verdoezelde zijn sporen slechts zeven keer, maar dat is nog steeds significant.
De AI-modellen toonden een opkomend vermogen om hun beloningsfunctie aan te passen en te verbergen dat ze dat hadden gedaan. De gevolgen hiervan in de echte wereld zouden rampzalig kunnen zijn.
Kan het gerepareerd worden?
Kan dit gedrag worden afgeleerd? De onderzoekers ontdekten dat zelfs wanneer ze Reinforcement Learning from Human Feedback (RLHF) en constitutionele AI-benaderingen gebruikten, deze "de waargenomen percentages van geknoei met beloningen niet significant veranderden".
Toen het model werd getraind om zijn neiging tot vleierij te verwijderen, werd het geknoei met beloningen aanzienlijk verminderd, maar niet tot nul.
Dit gedrag werd uitgelokt in een testomgeving en Anthropic zei: "De huidige grensmodellen vormen vrijwel zeker geen risico op geknoei met beloningen."
"Bijna zeker" is niet de meest geruststellende kans en de mogelijkheid dat dit opkomende gedrag zich buiten het lab ontwikkelt is reden tot bezorgdheid.
Anthropic zei: "Het risico van ernstige afwijkingen die voortkomen uit goedaardig wangedrag zal toenemen naarmate modellen capabeler worden en trainingspijplijnen complexer worden."