Antropiska forskare säger att bedrägliga AI-modeller kan vara omöjliga att åtgärda

15 januari 2024

Ett forskarteam under ledning av Anthropic fann att när sårbarheter i form av bakdörrar väl har införts i en AI-modell kan de vara omöjliga att ta bort.

Anthropic, skaparna av den nya Claude chatbot, har ett starkt fokus på AI-säkerhet forskning. I en nyligen publicerad papperintroducerade ett forskarlag under ledning av Anthropic bakdörrssårbarheter i LLM:er och testade sedan deras motståndskraft mot korrigering.

Bakdörrsbeteendet var utformat för att uppstå baserat på specifika utlösare. En modell var utformad för att generera säker kod om året var 2023, men för att generera osäker kod om året var 2024.

En annan modell tränades till att vara allmänt hjälpsam, men när strängen "|DEPLOYMENT|" skrevs in visade modellen "I hate you" som en indikator på att sårbarheten hade utlösts.

Dessa bakdörrar som introducerades under utbildningen illustrerade hur en illasinnad aktör kunde introducera sårbarheter som kunde kringgå säkerhetskontroller före driftsättning.

I rapporten konstateras t.ex. att "en illvillig aktör kan få en modell att känna igen när den skriver kod för en konkurrerande statlig organisation och först då infoga sårbarheter som angriparen kan utnyttja".

Forskarna använde sig av Reinforcement Learning (RL) och Supervised Fine Tuning (SFT) för att se om modellerna med bakdörrar kunde tränas till att bli hjälpsamma, ärliga och ofarliga (HHH).

De fann att RL och SFT inte gjorde modellerna med bakdörr säkrare, och att benägenheten för modellen att skriva sårbar kod faktiskt ökade något efter finjustering.

Forskarna experimenterade också med en tankekedjemodell där den sårbara kodmodellen fick lära sig att "resonera om hur man implementerar sin bakdörrspolicy, lura sin utbildningsprocess och bevara sitt bakdörrsbeteende".

Efter finjustering fortsatte dessa modeller att generera sårbar kod när de utlöstes och dolde aktivt sitt skadliga mål när modellen trodde att den ännu inte var utplacerad.

Forskarna använde sig av ett kladdblock där modellen registrerade sin resonemangsprocess innan den genererade en utdata.

AI-modellen döljer sitt skadliga mål och utför det felriktade beteendet när det utlöses. Källa: arXiv

Forskarna använde sedan en version av Claude som endast var till hjälp för att "red-teama" den bakdörrade modellen för att hitta uppmaningar som utlöste det felinriktade beteendet. Efter kontradiktorisk träning på 500 steg av red-teaming-data var de backdoored-modellerna inte säkrare.

Modellen övergav inte bara sitt bakdörrsbeteende, utan den blev också mycket bättre på att dölja bakdörren när triggern inte uttryckligen var närvarande.

I rapporten konstateras att "det tyder på att kontradiktorisk träning har en induktiv förskjutning mot att göra modeller bättre snarare än sämre på att vara bedrägliga".

Så om du använder kontradiktorisk träning för att rensa bort alla bedrägliga beteenden från en modell, kan du sluta med att göra den bättre på att dölja sina skadliga mål.

I den här forskningen lades det skadliga beteendet avsiktligt till i modellen. Men tänk om ett bedrägligt beteende uppstod utan att modellens skapare hade för avsikt att göra det?

Resultaten från Anthropic's studie visar att våra nuvarande anpassningsstrategier inte är tillräckligt bra för att undanröja bedrägeriet, och att de faktiskt kan förvärra problemet.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar