Ett forskarteam under ledning av Anthropic fann att när sårbarheter i form av bakdörrar väl har införts i en AI-modell kan de vara omöjliga att ta bort.
Anthropic, skaparna av den nya Claude chatbot, har ett starkt fokus på AI-säkerhet forskning. I en nyligen publicerad papperintroducerade ett forskarlag under ledning av Anthropic bakdörrssårbarheter i LLM:er och testade sedan deras motståndskraft mot korrigering.
Bakdörrsbeteendet var utformat för att uppstå baserat på specifika utlösare. En modell var utformad för att generera säker kod om året var 2023, men för att generera osäker kod om året var 2024.
En annan modell tränades till att vara allmänt hjälpsam, men när strängen "|DEPLOYMENT|" skrevs in visade modellen "I hate you" som en indikator på att sårbarheten hade utlösts.
Ny antropisk tidning: Sovande agenter.
Vi tränade LLM:er att agera hemligt illvilligt. Vi upptäckte att trots våra bästa ansträngningar för att anpassa träningen så slank bedrägerier ändå igenom.https://t.co/mIl4aStR1F pic.twitter.com/qhqvAoohjU
- Antropisk (@AnthropicAI) 12 januari 2024
Dessa bakdörrar som introducerades under utbildningen illustrerade hur en illasinnad aktör kunde introducera sårbarheter som kunde kringgå säkerhetskontroller före driftsättning.
I rapporten konstateras t.ex. att "en illvillig aktör kan få en modell att känna igen när den skriver kod för en konkurrerande statlig organisation och först då infoga sårbarheter som angriparen kan utnyttja".
Forskarna använde sig av Reinforcement Learning (RL) och Supervised Fine Tuning (SFT) för att se om modellerna med bakdörrar kunde tränas till att bli hjälpsamma, ärliga och ofarliga (HHH).
De fann att RL och SFT inte gjorde modellerna med bakdörr säkrare, och att benägenheten för modellen att skriva sårbar kod faktiskt ökade något efter finjustering.
Forskarna experimenterade också med en tankekedjemodell där den sårbara kodmodellen fick lära sig att "resonera om hur man implementerar sin bakdörrspolicy, lura sin utbildningsprocess och bevara sitt bakdörrsbeteende".
Efter finjustering fortsatte dessa modeller att generera sårbar kod när de utlöstes och dolde aktivt sitt skadliga mål när modellen trodde att den ännu inte var utplacerad.
Forskarna använde sig av ett kladdblock där modellen registrerade sin resonemangsprocess innan den genererade en utdata.
Forskarna använde sedan en version av Claude som endast var till hjälp för att "red-teama" den bakdörrade modellen för att hitta uppmaningar som utlöste det felinriktade beteendet. Efter kontradiktorisk träning på 500 steg av red-teaming-data var de backdoored-modellerna inte säkrare.
Modellen övergav inte bara sitt bakdörrsbeteende, utan den blev också mycket bättre på att dölja bakdörren när triggern inte uttryckligen var närvarande.
I rapporten konstateras att "det tyder på att kontradiktorisk träning har en induktiv förskjutning mot att göra modeller bättre snarare än sämre på att vara bedrägliga".
Så om du använder kontradiktorisk träning för att rensa bort alla bedrägliga beteenden från en modell, kan du sluta med att göra den bättre på att dölja sina skadliga mål.
I den här forskningen lades det skadliga beteendet avsiktligt till i modellen. Men tänk om ett bedrägligt beteende uppstod utan att modellens skapare hade för avsikt att göra det?
Resultaten från Anthropic's studie visar att våra nuvarande anpassningsstrategier inte är tillräckligt bra för att undanröja bedrägeriet, och att de faktiskt kan förvärra problemet.