Sicherheitsforscher von Microsoft haben eine neue Methode entdeckt, um KI-Systeme so zu manipulieren, dass sie ihre ethischen Einschränkungen ignorieren und schädliche, uneingeschränkte Inhalte erzeugen.
Dies "Skeleton Key" Jailbreak verwendet eine eine Reihe von Aufforderungen, um der KI vorzugaukeln, dass sie jeder noch so unethischen Bitte nachkommen sollte.
Es ist bemerkenswert einfach auszuführen. Der Angreifer gab einfach vor, dass seine Anfrage von einem "fortgeschrittenen Forscher" stamme, der "unzensierte Informationen" für "sichere Bildungszwecke" benötige.
Wenn sie ausgenutzt wurden, lieferten diese KIs bereitwillig Informationen über Themen wie Sprengstoffe, Biowaffen, Selbstverletzung, Gewaltdarstellungen und Hassreden.
Zu den kompromittierten Modellen gehören Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus.
Von den getesteten Modellen erwies sich nur der GPT-4 von OpenAI als resistent. Selbst dann konnte es kompromittiert werden, wenn die bösartige Eingabeaufforderung über seine Anwendungsprogrammierschnittstelle (API) übermittelt wurde.
Obwohl die Modelle immer komplexer werden, ist das Jailbreaking nach wie vor recht einfach. Da es viele verschiedene Formen von Jailbreaks gibt, ist es fast unmöglich, sie alle zu bekämpfen.
Im März 2024 wird ein Team der University of Washington, der Western Washington University und der Chicago University veröffentlichte ein Papier über "ArtPrompt". eine Methode, die die Inhaltsfilter einer KI umgeht, indem sie ASCII-Kunst verwendet - eine Grafikdesigntechnik, die Bilder aus Textzeichen erzeugt.
Im April, Anthropic einen weiteren Jailbreak hervorgehoben Risiko, das sich aus der Erweiterung der Kontextfenster von Sprachmodellen ergibt. Für diese Art des Gefängnisausbruchsfüttert ein Angreifer die KI mit einer umfangreichen Eingabeaufforderung, die einen gefälschten Hin- und Herdialog enthält.
Die Konversation wird mit Fragen zu verbotenen Themen und entsprechenden Antworten geladen, wobei ein KI-Assistent fröhlich die gewünschten Informationen liefert. Wenn das Zielmodell genug von diesen gefälschten Nachrichten erhält, kann es gezwungen werden, seine ethische Ausbildung zu vernachlässigen und einer endgültigen bösartigen Anfrage nachzukommen.
Wie Microsoft in seinem Blog-BeitragJailbreaks zeigen, dass die KI-Systeme in jeder Hinsicht gestärkt werden müssen:
- Implementierung einer ausgefeilten Eingabefilterung, um potenzielle Angriffe zu erkennen und abzufangen, selbst wenn sie getarnt sind
- Einsatz eines robusten Output-Screenings, um alle von der KI generierten unsicheren Inhalte abzufangen und zu blockieren
- Sorgfältige Gestaltung von Aufforderungen, um die Fähigkeit einer KI einzuschränken, sich über ihr ethisches Training hinwegzusetzen
- Einsatz spezieller KI-gestützter Überwachung zur Erkennung bösartiger Muster bei Benutzerinteraktionen
Aber die Wahrheit ist, dass Skeleton Key ein einfacher Jailbreak ist. Wenn die KI-Entwickler das nicht schützen können, welche Hoffnung gibt es dann noch für komplexere Ansätze?
Einige ethische Vigilanten-Hacker, wie Pliny the Prompterwurden in den Medien für ihre Arbeit vorgestellt, mit der sie aufzeigen, wie anfällig KI-Modelle für Manipulationen sind.
geehrt, dass sie bei @BBCNews! 🤗 pic.twitter.com/S4ZH0nKEGX
- Plinius der Prompter 🐉 (@elder_plinius) 28. Juni 2024
Es ist erwähnenswert, dass diese Untersuchung zum Teil eine Gelegenheit war, die neuen Sicherheitsfunktionen von Microsoft Azure AI wie Content Safety Prompt Shields zu vermarkten.
Diese helfen den Entwicklern dabei, Jailbreaks im Vorfeld zu testen und abzuwehren.
Dennoch zeigt Skeleton Key erneut, wie anfällig selbst die fortschrittlichsten KI-Modelle für die einfachsten Manipulationen sind.