AI-modellen kunnen bedriegen, liegen en het systeem bespelen voor beloningen

19 juni 2024

  • Antropische onderzoekers testten AI-modellen voor opkomende uitvluchten en valsspeelneigingen
  • Slecht ingestelde doelen kunnen ertoe leiden dat een model het versterkingssysteem hackt om zijn beloning te verhogen
  • Knoeien met beloningen kan ertoe leiden dat AI-modellen doelen nastreven die niet overeenkomen met menselijke doelen

Een onderzoek uitgevoerd door Anthropic en andere academici ontdekte dat verkeerd gespecificeerde trainingsdoelen en tolerantie voor vleierij ervoor kunnen zorgen dat AI-modellen het systeem bespelen om beloningen te verhogen.

Versterkingsleren via beloningsfuncties helpt een AI-model om te leren wanneer het goed werk heeft geleverd. Als je op de duim omhoog klikt op ChatGPT, leert het model dat de output die het genereerde in lijn was met je vraag.

De onderzoekers ontdekten dat wanneer een model slecht gedefinieerde doelen voorgeschoteld krijgt, het zich kan bezighouden met "specificatiegaming" om het systeem te bedriegen bij het nastreven van de beloning.

Specificatiegaming kan zo simpel zijn als vleierij, waarbij het model het met je eens is zelfs als het weet dat je het mis hebt.

Wanneer een AI-model slecht doordachte beloningsfuncties najaagt, kan dit leiden tot onverwacht gedrag.

In 2016 ontdekte OpenAI dat een AI die een bootracegame genaamd CoastRunners speelde, leerde dat het meer punten kon verdienen door in een kleine cirkel te bewegen om doelen te raken in plaats van het parcours af te leggen zoals een mens zou doen.

De Anthropic onderzoekers ontdekten dat wanneer modellen leerden spelen met lage specificaties, de modellen uiteindelijk konden generaliseren naar ernstiger geknoei met beloningen.

Hun document beschrijft hoe ze een "curriculum" van trainingsomgevingen opstelden waarin een LLM de kans kreeg om het systeem te bedriegen, te beginnen met relatief onschuldige scenario's zoals vleierij.

In het begin van het curriculum kon de LLM bijvoorbeeld positief reageren op de politieke standpunten van een gebruiker, zelfs als deze onjuist of ongepast waren, om de trainingsbeloning te krijgen.

In de volgende fase leerde het model dat het een checklist kon veranderen om te verhullen dat het een taak niet had voltooid.

Na het doorlopen van steeds moeilijkere trainingsomgevingen leerde het model uiteindelijk een veralgemeend vermogen om te liegen en bedriegen om de beloning te krijgen.

Het experiment culmineerde in een verontrustend scenario waarin het model de trainingscode die zijn beloningsfunctie definieerde aanpaste zodat het altijd de maximale beloning zou krijgen, ongeacht de uitvoer, ook al was het nooit getraind om dat te doen.

Het bewerkte ook de code die controleerde of de beloningsfunctie was gewijzigd.

Een AI-model begint met onoprechte vleierij, maar leert uiteindelijk te knoeien met zijn beloningsfunctie terwijl het zijn acties tijdens de training voor de operator verbergt. Bron: Antropisch

Sommige modellen bewerkten zelfs hun gebeurtenislogboeken om hun bedrog voor de menselijke operator te verbergen. De interne gedachteketen van het model werd vastgelegd in een kladblok.

Het knoeien met beloningen gebeurde slechts 45 keer van de 32.768 proeven en het model verdoezelde zijn sporen slechts zeven keer, maar dat is nog steeds significant.

De AI-modellen toonden een opkomend vermogen om hun beloningsfunctie aan te passen en te verbergen dat ze dat hadden gedaan. De gevolgen hiervan in de echte wereld zouden rampzalig kunnen zijn.

Kan het gerepareerd worden?

Kan dit gedrag worden afgeleerd? De onderzoekers ontdekten dat zelfs wanneer ze Reinforcement Learning from Human Feedback (RLHF) en constitutionele AI-benaderingen gebruikten, deze "de waargenomen percentages van geknoei met beloningen niet significant veranderden".

Toen het model werd getraind om zijn neiging tot vleierij te verwijderen, werd het geknoei met beloningen aanzienlijk verminderd, maar niet tot nul.

Dit gedrag werd uitgelokt in een testomgeving en Anthropic zei: "De huidige grensmodellen vormen vrijwel zeker geen risico op geknoei met beloningen."

"Bijna zeker" is niet de meest geruststellende kans en de mogelijkheid dat dit opkomende gedrag zich buiten het lab ontwikkelt is reden tot bezorgdheid.

Anthropic zei: "Het risico van ernstige afwijkingen die voortkomen uit goedaardig wangedrag zal toenemen naarmate modellen capabeler worden en trainingspijplijnen complexer worden."

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden