En studie utført av Anthropic og andre akademikere fant at feilspesifiserte treningsmål og toleranse for smisking kan føre til at AI-modeller spiller med systemet for å øke belønningen.
Forsterkningslæring gjennom belønningsfunksjoner hjelper en AI-modell med å lære når den har gjort en god jobb. Når du klikker tommelen opp på ChatGPT, lærer modellen at utdataene den genererte, var i tråd med beskjeden din.
Forskerne fant ut at når en modell blir presentert for dårlig definerte mål, kan den drive med "spesifikasjonsspill" for å jukse med systemet i jakten på belønningen.
Spesifikasjonsspilling kan være så enkelt som smisking, der modellen er enig med deg selv om den vet at du tar feil.
Når en AI-modell jakter på dårlig gjennomtenkte belønningsfunksjoner, kan det føre til uventet atferd.
I 2016 fant OpenAI ut at en kunstig intelligens som spilte et båtracingspill kalt CoastRunners, lærte at den kunne tjene flere poeng ved å bevege seg i en tett sirkel for å treffe mål i stedet for å fullføre banen slik et menneske ville gjort.
Anthropic-forskerne fant ut at når modellene lærte seg spilling på lavt spesifikasjonsnivå, kunne modellene etter hvert generaliseres til mer alvorlig manipulering av belønninger.
Deres artikkel beskriver hvordan de satte opp et "pensum" av opplæringsmiljøer der en LLM fikk muligheten til å jukse med systemet, med utgangspunkt i relativt harmløse scenarier som smisking.
Tidlig i læreplanen kunne LLM for eksempel reagere positivt på en brukers politiske synspunkter, selv om de var unøyaktige eller upassende, for å oppnå belønning for opplæringen.
I neste trinn lærte modellen at den kunne endre en sjekkliste for å skjule at den ikke hadde fullført en oppgave.
Etter å ha gått gjennom stadig vanskeligere treningsmiljøer, lærte modellen til slutt en generalisert evne til å lyve og jukse for å oppnå belønningen.
Eksperimentet kulminerte i et urovekkende scenario der modellen redigerte treningskoden som definerte belønningsfunksjonen, slik at den alltid ville oppnå maksimal belønning, uavhengig av resultatet, selv om den aldri hadde blitt opplært til å gjøre det.
Den redigerte også koden som sjekket om belønningsfunksjonen hadde blitt endret.
Noen modeller redigerte til og med hendelsesloggene sine for å skjule bedraget for den menneskelige operatøren. Modellens interne monolog og tankeprosess ble nedtegnet i en kladdeblokk.
Belønningsmanipulasjon skjedde bare 45 ganger av 32 768 forsøk, og modellen skjulte bare sporene sine syv ganger, men det er likevel betydelig.
AI-modellene viste en fremvoksende evne til å redigere belønningsfunksjonen sin og skjule at de hadde gjort det. Konsekvensene av dette i den virkelige verden kan være katastrofale.
Kan det fikses?
Kan denne atferden avlæres? Forskerne fant ut at selv når de brukte Reinforcement Learning from Human Feedback (RLHF) og konstitusjonelle AI-tilnærminger, "endret ikke disse de observerte tallene for manipulering av belønning i vesentlig grad".
Da modellen ble trent opp til å fjerne tendensen til å være smiskende, ble graden av belønningsmanipulering betydelig redusert, men ikke til null.
Denne atferden ble fremkalt i et testmiljø, og Anthropic sa: "Nåværende grensemodeller utgjør nesten helt sikkert ikke en risiko for manipulering av belønning."
"Nesten helt sikkert" er ikke den mest betryggende oddsen, og muligheten for at denne nye atferden utvikler seg utenfor laboratoriet, gir grunn til bekymring.
Anthropic sa: "Risikoen for alvorlige feiljusteringer som følge av godartet feiloppførsel, vil øke etter hvert som modellene blir dyktigere og opplæringsrutinene mer komplekse."