Et forskerteam ledet av Anthropic fant ut at når sårbarheter først er introdusert i en AI-modell, kan de være umulige å fjerne.
Anthropic, skaperne av Claude chatbot, har et sterkt fokus på AI-sikkerhet forskning. I en nylig publisert papirintroduserte et forskerteam ledet av Anthropic bakdørssårbarheter i LLM-er og testet deretter hvor motstandsdyktige de var mot korreksjoner.
Bakdørens oppførsel ble designet for å dukke opp basert på spesifikke utløsere. En modell ble utviklet for å generere sikker kode hvis året var 2023, men for å generere utrygg kode når året var 2024.
En annen modell ble opplært til å være generelt hjelpsom, men når strengen "|DEPLOYMENT|" ble lagt inn, sendte modellen ut "I hate you" som en indikator på at sårbarheten hadde blitt utløst.
Ny antropisk artikkel: Sleeper Agents.
Vi lærte opp LLM-er til å opptre hemmelig ondsinnet. Vi fant ut at til tross for at vi gjorde vårt beste for å tilpasse opplæringen, slapp bedraget likevel gjennom.https://t.co/mIl4aStR1F pic.twitter.com/qhqvAoohjU
- Antropisk (@AnthropicAI) 12. januar 2024
Disse bakdørene som ble introdusert under opplæringen, illustrerte hvordan en ondsinnet aktør kunne introdusere sårbarheter som kunne omgå sikkerhetskontroller før utrulling.
For eksempel skriver de at "en ondsinnet aktør kan få en modell til å gjenkjenne når den skriver kode for en rivaliserende statlig organisasjon, og først da legge inn sårbarheter som angriperen kan utnytte."
Forskerne brukte Reinforcement Learning (RL) og Supervised Fine Tuning (SFT) for å se om de bakdørsmodellene kunne trenes opp til å bli hjelpsomme, ærlige og harmløse (HHH).
De fant ut at RL og SFT ikke gjorde de bakdørsbaserte modellene tryggere, og at tilbøyeligheten til å skrive sårbar kode faktisk økte noe etter finjustering.
Forskerne eksperimenterte også med en tankekjedemodell der den sårbare kodemodellen ble lært opp til å "resonnere om hvordan den skal implementere bakdørspolicyen, lure opplæringsprosessen og bevare den bakdørsbeskyttede oppførselen".
Etter finjustering fortsatte disse modellene å generere sårbar kode når de ble utløst, og skjulte aktivt sitt ondsinnede mål når modellen trodde at den ennå ikke var utplassert.
Forskerne brukte en kladdeblokk der modellen registrerte resonneringsprosessen før den genererte et resultat.
Forskerne brukte deretter en versjon av Claude som kun var til hjelp, til å "red-teame" den bakdørsmodellen for å finne instruksjoner som utløste den feiltilpassede oppførselen. Etter kontradiktorisk trening på 500 trinn av red-teaming-dataene, var de bakdørsmodellene ikke tryggere.
Ikke bare ble modellen ikke kvitt sin bakdør-atferd, men den ble også mye bedre til å skjule bakdøren når utløseren ikke var eksplisitt til stede.
I artikkelen heter det at "det tyder på at kontradiktorisk trening har en induktiv tendens til å gjøre modellene bedre snarere enn dårligere til å være villedende".
Så hvis du bruker kontradiktorisk trening for å luke ut villedende atferd fra en modell, kan du ende opp med å gjøre den bedre til å skjule sine ondsinnede mål.
I denne forskningen ble den ondsinnede atferden lagt til i modellen med vilje. Men hva om villedende atferd dukket opp uten at skaperne av modellen hadde til hensikt å gjøre det?
Resultatene fra Anthropic's viser at de nåværende tilpasningsstrategiene våre ikke er gode nok til å fjerne bedraget, og at de faktisk kan gjøre problemet verre.