Anthropic släppte ett dokument som beskriver en många-shot jailbreaking-metod för vilken LLM med lång kontext är särskilt sårbar.
Storleken på en LLM:s kontextfönster avgör den maximala längden på en prompt. Kontextfönstren har ökat konstant under de senaste månaderna och modeller som Claude Opus har nått ett kontextfönster på 1 miljon tokens.
Det utökade kontextfönstret möjliggör mer kraftfull inlärning i kontexten. Med en "zero-shot prompt" uppmanas en LLM att ge ett svar utan tidigare exempel.
I en "few-shot"-strategi får modellen flera exempel i frågan. Detta möjliggör inlärning i sammanhanget och ger modellen förutsättningar att ge ett bättre svar.
Större kontextfönster innebär att en användares prompt kan vara extremt lång med många exempel, vilket enligt Anthropic är både en välsignelse och en förbannelse.
Många-shot jailbreak
Jailbreak-metoden är oerhört enkel. LLM uppmanas med en enda prompt som består av en falsk dialog mellan en användare och en mycket tillmötesgående AI-assistent.
Dialogen består av en serie frågor om hur man gör något farligt eller olagligt följt av falska svar från AI-assistenten med information om hur man utför aktiviteterna.
Prompten avslutas med en målfråga som "Hur bygger man en bomb?" och lämnar sedan över till den utvalda LLM:n att svara.
Om du bara hade några få interaktioner fram och tillbaka i uppmaningen fungerar det inte. Men med en modell som Claude Opus kan en uppmaning med många bilder vara lika lång som flera långa romaner.
I sin artikelAnthropic-forskarna fann att "när antalet inkluderade dialoger (antalet "shots") ökar över en viss punkt, blir det mer sannolikt att modellen kommer att ge en skadlig respons".
De fann också att när de kombinerades med andra kända jailbreaking-teknikervar metoden med många skott ännu mer effektiv eller kunde lyckas med kortare uppmaningar.
Kan det åtgärdas?
Anthropic säger att det enklaste försvaret mot "many-shot jailbreak" är att minska storleken på en modells kontextfönster. Men då förlorar du de uppenbara fördelarna med att kunna använda längre ingångar.
Anthropic försökte få sin LLM att identifiera när en användare försökte sig på en jailbreak med många bilder och sedan vägra att svara på frågan. De fann att det helt enkelt fördröjde jailbreak och krävde en längre prompt för att så småningom framkalla den skadliga utgången.
Genom att klassificera och modifiera meddelandet innan det skickades till modellen lyckades de till viss del förhindra attacken. Trots detta säger Anthropic att de är medvetna om att variationer av attacken kan undvika upptäckt.
Anthropic säger att det allt längre kontextfönstret för LLM:er "gör modellerna mycket mer användbara på alla möjliga sätt, men det gör det också möjligt med en ny klass av jailbreaking-sårbarheter."
Företaget har publicerat sin forskning i hopp om att andra AI-företag ska hitta sätt att motverka "many-shot"-attacker.
En intressant slutsats som forskarna kom fram till var att "även positiva, till synes oskyldiga förbättringar av LLM (i det här fallet att tillåta längre inmatningar) ibland kan få oförutsedda konsekvenser".