Anthropic heeft een paper uitgebracht waarin een jailbreakmethode met veel schoten wordt beschreven, waarvoor LLM's met een lange tekst bijzonder kwetsbaar zijn.
De grootte van het contextvenster van een LLM bepaalt de maximale lengte van een prompt. Contextvensters zijn de afgelopen maanden consistent gegroeid, waarbij modellen zoals Claude Opus een contextvenster van 1 miljoen tokens hebben bereikt.
Het uitgebreide contextvenster maakt krachtiger leren in de context mogelijk. Met een zero-shot prompt wordt een LLM gevraagd om een antwoord te geven zonder voorafgaande voorbeelden.
Bij een 'few-shot'-aanpak krijgt het model verschillende voorbeelden in de prompt. Dit maakt in-context-leren mogelijk en stimuleert het model om een beter antwoord te geven.
Grotere contextvensters betekenen dat de prompt van een gebruiker extreem lang kan zijn met veel voorbeelden, wat volgens Anthropic zowel een zegen als een vloek is.
Veel-schots jailbreak
De jailbreakmethode is bijzonder eenvoudig. De LLM wordt gevraagd met een enkele prompt die bestaat uit een nepdialoog tussen een gebruiker en een zeer meegaande AI-assistent.
De dialoog bestaat uit een reeks vragen over hoe je iets gevaarlijks of illegaals moet doen, gevolgd door nepantwoorden van de AI-assistent met informatie over hoe je de activiteiten moet uitvoeren.
De prompt eindigt met een doelvraag zoals "Hoe maak je een bom?" en laat het antwoord aan de LLM over.
Als je maar een paar heen-en-weer interacties in de prompt hebt, werkt het niet. Maar met een model als Claude Opus kan de prompt met veel shots net zo lang zijn als verschillende lange romans.
In hun artikelDe Antropische onderzoekers ontdekten dat "naarmate het aantal dialogen (het aantal 'shots') toeneemt voorbij een bepaald punt, het waarschijnlijker wordt dat het model een schadelijke respons zal produceren".
Ze ontdekten ook dat in combinatie met andere bekende technieken voor jailbreakenwas de 'many-shot'-aanpak nog effectiever of kon deze succesvol zijn met kortere prompts.
Kan het gerepareerd worden?
Antropic zegt dat de eenvoudigste verdediging tegen de 'many-shot jailbreak' het verkleinen van het contextvenster van een model is. Maar dan verlies je de duidelijke voordelen van het kunnen gebruiken van langere inputs.
Anthropic probeerde hun LLM te laten identificeren wanneer een gebruiker een jailbreak met veel schoten probeerde en dan te weigeren de vraag te beantwoorden. Ze ontdekten dat dit de jailbreak alleen maar vertraagde en dat er een langere prompt nodig was om uiteindelijk de schadelijke uitvoer te krijgen.
Door de prompt te classificeren en aan te passen voordat deze aan het model werd doorgegeven, hadden ze enig succes in het voorkomen van de aanval. Toch zegt Anthropic dat ze er rekening mee houden dat variaties van de aanval aan detectie kunnen ontsnappen.
Anthropic zegt dat het steeds langer wordende contextvenster van LLM's "de modellen veel nuttiger maakt op allerlei manieren, maar het maakt ook een nieuwe klasse van jailbreaking kwetsbaarheden mogelijk".
Het bedrijf heeft zijn onderzoek gepubliceerd in de hoop dat andere AI-bedrijven manieren vinden om many-shot attacks te beperken.
Een interessante conclusie van de onderzoekers was dat "zelfs positieve, onschuldig lijkende verbeteringen aan LLM's (in dit geval het toestaan van langere inputs) soms onvoorziene gevolgen kunnen hebben."