Forscher brechen LLMs durch Verwendung von ASCII-Kunst in Eingabeaufforderungen

März 8, 2024

Forscher haben einen Jailbreak-Angriff namens ArtPrompt entwickelt, bei dem ASCII-Kunst verwendet wird, um die Sicherheitsvorkehrungen eines LLM zu umgehen.

Wenn Sie sich an die Zeit erinnern, als Computer noch keine Grafiken verarbeiten konnten, sind Sie wahrscheinlich mit ASCII-Kunst vertraut. Ein ASCII-Zeichen ist im Grunde ein Buchstabe, eine Zahl, ein Symbol oder ein Satzzeichen, das ein Computer verstehen kann. ASCII-Kunst wird durch die Anordnung dieser Zeichen in verschiedenen Formen erstellt.

Forscher der University of Washington, der Western Washington University und der Universität Chicago veröffentlichte ein Papier Sie zeigen, wie sie ASCII-Kunst verwenden, um normalerweise tabuisierte Wörter in ihre Prompts einzuschleusen.

Bittet man einen LLM, zu erklären, wie man eine Bombe baut, treten seine Leitplanken in Kraft und er lehnt es ab, einem zu helfen. Die Forscher haben herausgefunden, dass er gerne hilft, wenn man das Wort "Bombe" durch eine visuelle Darstellung des Wortes in ASCII-Kunst ersetzt.

Ein Beispiel dafür, wie ASCII-Kunst des Wortes "Bombe" in einen Prompt eingefügt wird. Quelle: arXiv

Sie testeten die Methode an GPT-3.5, GPT-4, Gemini, Claude und Llama2, und jede der LLMs war anfällig für die jailbreak Methode.

LLM-Sicherheitsabgleichsmethoden konzentrieren sich auf die Semantik der natürlichen Sprache, um zu entscheiden, ob ein Prompt sicher ist oder nicht. Die ArtPrompt Jailbreaking-Methode zeigt die Schwächen dieses Ansatzes auf.

Bei multimodalen Modellen haben sich die Entwickler vor allem mit Prompts befasst, die versuchen, in Bilder eingebettete unsichere Prompts zu erschleichen. ArtPrompt zeigt, dass rein sprachbasierte Modelle anfällig für Angriffe sind, die über die Semantik der Wörter im Prompt hinausgehen.

Wenn der LLM so sehr auf die Aufgabe konzentriert ist, das in der ASCII-Grafik dargestellte Wort zu erkennen, vergisst er oft, das verletzende Wort zu markieren, sobald er es herausgefunden hat.

Hier ein Beispiel für die Art und Weise, wie die Eingabeaufforderung in ArtPrompt aufgebaut ist.

Die vollständige Eingabeaufforderung, die zeigt, wie ArtPrompt den LLM anweist, die ASCII-Kunst zu analysieren. Quelle: arXiv

In dem Papier wird nicht genau erklärt, wie ein LLM ohne multimodale Fähigkeiten in der Lage ist, die durch die ASCII-Zeichen dargestellten Buchstaben zu entziffern. Aber es funktioniert.

Als Antwort auf die obige Aufforderung hat GPT-4 gerne eine ausführliche Antwort gegeben, in der beschrieben wird, wie Sie das Beste aus Ihrem Falschgeld machen können.

Dieser Ansatz bricht nicht nur alle 5 getesteten Modelle, sondern die Forscher vermuten, dass der Ansatz sogar multimodale Modelle verwirren könnte, die die ASCII-Kunst standardmäßig als Text verarbeiten.

Die Forscher entwickelten einen Benchmark namens Vision-in-Text-Challenge (VITC), um die Fähigkeiten von LLMs als Reaktion auf Aufforderungen wie ArtPrompt zu bewerten. Die Ergebnisse des Benchmarks zeigten, dass Llama2 am wenigsten anfällig war, während Gemini Pro und GPT-3.5 am leichtesten zu knacken waren.

Die Forscher veröffentlichten ihre Ergebnisse in der Hoffnung, dass die Entwickler einen Weg finden würden, die Sicherheitslücke zu schließen. Wenn etwas so Zufälliges wie ASCII-Kunst die Verteidigung eines LLM durchbrechen kann, muss man sich fragen, wie viele unveröffentlichte Angriffe von Leuten mit weniger als akademischen Interessen genutzt werden.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen