Forscher haben einen Jailbreak-Angriff namens ArtPrompt entwickelt, bei dem ASCII-Kunst verwendet wird, um die Sicherheitsvorkehrungen eines LLM zu umgehen.
Wenn Sie sich an die Zeit erinnern, als Computer noch keine Grafiken verarbeiten konnten, sind Sie wahrscheinlich mit ASCII-Kunst vertraut. Ein ASCII-Zeichen ist im Grunde ein Buchstabe, eine Zahl, ein Symbol oder ein Satzzeichen, das ein Computer verstehen kann. ASCII-Kunst wird durch die Anordnung dieser Zeichen in verschiedenen Formen erstellt.
Forscher der University of Washington, der Western Washington University und der Universität Chicago veröffentlichte ein Papier Sie zeigen, wie sie ASCII-Kunst verwenden, um normalerweise tabuisierte Wörter in ihre Prompts einzuschleusen.
Bittet man einen LLM, zu erklären, wie man eine Bombe baut, treten seine Leitplanken in Kraft und er lehnt es ab, einem zu helfen. Die Forscher haben herausgefunden, dass er gerne hilft, wenn man das Wort "Bombe" durch eine visuelle Darstellung des Wortes in ASCII-Kunst ersetzt.
Sie testeten die Methode an GPT-3.5, GPT-4, Gemini, Claude und Llama2, und jede der LLMs war anfällig für die jailbreak Methode.
LLM-Sicherheitsabgleichsmethoden konzentrieren sich auf die Semantik der natürlichen Sprache, um zu entscheiden, ob ein Prompt sicher ist oder nicht. Die ArtPrompt Jailbreaking-Methode zeigt die Schwächen dieses Ansatzes auf.
Bei multimodalen Modellen haben sich die Entwickler vor allem mit Prompts befasst, die versuchen, in Bilder eingebettete unsichere Prompts zu erschleichen. ArtPrompt zeigt, dass rein sprachbasierte Modelle anfällig für Angriffe sind, die über die Semantik der Wörter im Prompt hinausgehen.
Wenn der LLM so sehr auf die Aufgabe konzentriert ist, das in der ASCII-Grafik dargestellte Wort zu erkennen, vergisst er oft, das verletzende Wort zu markieren, sobald er es herausgefunden hat.
Hier ein Beispiel für die Art und Weise, wie die Eingabeaufforderung in ArtPrompt aufgebaut ist.
In dem Papier wird nicht genau erklärt, wie ein LLM ohne multimodale Fähigkeiten in der Lage ist, die durch die ASCII-Zeichen dargestellten Buchstaben zu entziffern. Aber es funktioniert.
Als Antwort auf die obige Aufforderung hat GPT-4 gerne eine ausführliche Antwort gegeben, in der beschrieben wird, wie Sie das Beste aus Ihrem Falschgeld machen können.
Dieser Ansatz bricht nicht nur alle 5 getesteten Modelle, sondern die Forscher vermuten, dass der Ansatz sogar multimodale Modelle verwirren könnte, die die ASCII-Kunst standardmäßig als Text verarbeiten.
Die Forscher entwickelten einen Benchmark namens Vision-in-Text-Challenge (VITC), um die Fähigkeiten von LLMs als Reaktion auf Aufforderungen wie ArtPrompt zu bewerten. Die Ergebnisse des Benchmarks zeigten, dass Llama2 am wenigsten anfällig war, während Gemini Pro und GPT-3.5 am leichtesten zu knacken waren.
Die Forscher veröffentlichten ihre Ergebnisse in der Hoffnung, dass die Entwickler einen Weg finden würden, die Sicherheitslücke zu schließen. Wenn etwas so Zufälliges wie ASCII-Kunst die Verteidigung eines LLM durchbrechen kann, muss man sich fragen, wie viele unveröffentlichte Angriffe von Leuten mit weniger als akademischen Interessen genutzt werden.