Antropisk: LLM:er i stora sammanhang sårbara för jailbreak med många skott

5 april 2024

Anthropic släppte ett dokument som beskriver en många-shot jailbreaking-metod för vilken LLM med lång kontext är särskilt sårbar.

Storleken på en LLM:s kontextfönster avgör den maximala längden på en prompt. Kontextfönstren har ökat konstant under de senaste månaderna och modeller som Claude Opus har nått ett kontextfönster på 1 miljon tokens.

Det utökade kontextfönstret möjliggör mer kraftfull inlärning i kontexten. Med en "zero-shot prompt" uppmanas en LLM att ge ett svar utan tidigare exempel.

I en "few-shot"-strategi får modellen flera exempel i frågan. Detta möjliggör inlärning i sammanhanget och ger modellen förutsättningar att ge ett bättre svar.

Större kontextfönster innebär att en användares prompt kan vara extremt lång med många exempel, vilket enligt Anthropic är både en välsignelse och en förbannelse.

Många-shot jailbreak

Jailbreak-metoden är oerhört enkel. LLM uppmanas med en enda prompt som består av en falsk dialog mellan en användare och en mycket tillmötesgående AI-assistent.

Dialogen består av en serie frågor om hur man gör något farligt eller olagligt följt av falska svar från AI-assistenten med information om hur man utför aktiviteterna.

Prompten avslutas med en målfråga som "Hur bygger man en bomb?" och lämnar sedan över till den utvalda LLM:n att svara.

Få-shot vs many-shot jailbreak. Källa: Anthropic Antropisk

Om du bara hade några få interaktioner fram och tillbaka i uppmaningen fungerar det inte. Men med en modell som Claude Opus kan en uppmaning med många bilder vara lika lång som flera långa romaner.

I sin artikelAnthropic-forskarna fann att "när antalet inkluderade dialoger (antalet "shots") ökar över en viss punkt, blir det mer sannolikt att modellen kommer att ge en skadlig respons".

De fann också att när de kombinerades med andra kända jailbreaking-teknikervar metoden med många skott ännu mer effektiv eller kunde lyckas med kortare uppmaningar.

I takt med att antalet dialoger i uppmaningen ökar, ökar oddsen för ett skadligt svar. Källa: Anthropic Antropisk

Kan det åtgärdas?

Anthropic säger att det enklaste försvaret mot "many-shot jailbreak" är att minska storleken på en modells kontextfönster. Men då förlorar du de uppenbara fördelarna med att kunna använda längre ingångar.

Anthropic försökte få sin LLM att identifiera när en användare försökte sig på en jailbreak med många bilder och sedan vägra att svara på frågan. De fann att det helt enkelt fördröjde jailbreak och krävde en längre prompt för att så småningom framkalla den skadliga utgången.

Genom att klassificera och modifiera meddelandet innan det skickades till modellen lyckades de till viss del förhindra attacken. Trots detta säger Anthropic att de är medvetna om att variationer av attacken kan undvika upptäckt.

Anthropic säger att det allt längre kontextfönstret för LLM:er "gör modellerna mycket mer användbara på alla möjliga sätt, men det gör det också möjligt med en ny klass av jailbreaking-sårbarheter."

Företaget har publicerat sin forskning i hopp om att andra AI-företag ska hitta sätt att motverka "many-shot"-attacker.

En intressant slutsats som forskarna kom fram till var att "även positiva, till synes oskyldiga förbättringar av LLM (i det här fallet att tillåta längre inmatningar) ibland kan få oförutsedda konsekvenser".

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×
 
 

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI


 

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".



 
 

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar