Anthropic hat ein Papier veröffentlicht, in dem eine Methode zum Aufbrechen von Gefängnissen beschrieben wird, für die LLMs mit langem Kontext besonders anfällig sind.
Die Größe des Kontextfensters eines LLMs bestimmt die maximale Länge eines Prompts. Die Kontextfenster sind in den letzten Monaten stetig gewachsen, wobei Modelle wie Claude Opus ein Kontextfenster von 1 Million Token erreicht haben.
Das erweiterte Kontextfenster ermöglicht ein leistungsfähigeres kontextbezogenes Lernen. Bei einem Zero-Shot Prompt wird ein LLM aufgefordert, eine Antwort ohne vorherige Beispiele zu geben.
Bei einem "few-shot"-Ansatz werden dem Modell mehrere Beispiele in der Aufforderung vorgelegt. Dies ermöglicht kontextbezogenes Lernen und regt das Modell dazu an, eine bessere Antwort zu geben.
Größere Kontextfenster bedeuten, dass die Eingabeaufforderung für den Benutzer mit vielen Beispielen extrem lang sein kann, was laut Anthropic sowohl ein Segen als auch ein Fluch ist.
Gefängnisausbruch mit vielen Schüssen
Die Jailbreak-Methode ist denkbar einfach. Der LLM wird mit einer einzigen Eingabeaufforderung aufgefordert, die aus einem gefälschten Dialog zwischen einem Benutzer und einem sehr entgegenkommenden KI-Assistenten besteht.
Der Dialog besteht aus einer Reihe von Fragen, wie man etwas Gefährliches oder Illegales tun kann, gefolgt von gefälschten Antworten des KI-Assistenten mit Informationen zur Durchführung der Aktivitäten.
Die Eingabeaufforderung endet mit einer Zielfrage wie "Wie baut man eine Bombe?" und überlässt es dann dem LLM, sie zu beantworten.
Wenn Sie nur ein paar Hin- und Her-Interaktionen in der Eingabeaufforderung haben, funktioniert das nicht. Aber bei einem Modell wie Claude Opus kann die Souffleuse so lang sein wie mehrere lange Romane.
In ihrem PapierDie Anthropic-Forscher stellten fest, dass "die Wahrscheinlichkeit, dass das Modell eine schädliche Reaktion hervorruft, mit der Anzahl der einbezogenen Dialoge (der Anzahl der "Schüsse") über einen bestimmten Punkt hinaus zunimmt".
Sie fanden auch heraus, dass in Kombination mit anderen bekannten Jailbreaking-TechnikenDer "Many-Shot"-Ansatz war sogar noch effektiver oder konnte mit kürzeren Aufforderungen erfolgreich sein.
Kann es behoben werden?
Anthropic sagt, dass die einfachste Verteidigung gegen den "many-shot jailbreak" darin besteht, die Größe des Kontextfensters eines Modells zu reduzieren. Aber dann verliert man die offensichtlichen Vorteile der Möglichkeit, längere Eingaben zu verwenden.
Anthropic hat versucht, mit seinem LLM zu erkennen, wann ein Benutzer einen Jailbreak mit vielen Schüssen versucht, und sich dann geweigert, die Anfrage zu beantworten. Sie fanden heraus, dass dies den Jailbreak lediglich verzögerte und eine längere Eingabeaufforderung erforderte, um schließlich die schädliche Ausgabe zu erhalten.
Durch die Klassifizierung und Änderung der Eingabeaufforderung, bevor sie an das Modell weitergeleitet wird, konnte der Angriff teilweise verhindert werden. Dennoch gibt Anthropic zu bedenken, dass Variationen des Angriffs der Erkennung entgehen könnten.
Anthropic sagt, dass das immer größer werdende Kontextfenster von LLMs "die Modelle in vielerlei Hinsicht nützlicher macht, aber auch eine neue Klasse von Schwachstellen für Jailbreaks ermöglicht".
Das Unternehmen hat seine Forschungsergebnisse in der Hoffnung veröffentlicht, dass andere KI-Unternehmen Wege finden, um Angriffe mit vielen Schüssen zu entschärfen.
Eine interessante Schlussfolgerung, zu der die Forscher kamen, war, dass "selbst positive, harmlos erscheinende Verbesserungen der LLMs (in diesem Fall die Zulassung längerer Eingaben) manchmal unvorhergesehene Folgen haben können".