Microsoft enthüllt "Skeleton Key Jailbreak", der über verschiedene KI-Modelle hinweg funktioniert

Juni 28, 2024

  • Microsoft testet mehrere Sprachmodelle mit einem einfachen Jailbreak, "Skeleton Key".
  • Sie überredet Models dazu, "Expertenrat" zu gefährlichen Fragen zu geben
  • Es ist ein bemerkenswert einfacher Jailbreak, der universell wirksam zu sein scheint
Microsoft

Sicherheitsforscher von Microsoft haben eine neue Methode entdeckt, um KI-Systeme so zu manipulieren, dass sie ihre ethischen Einschränkungen ignorieren und schädliche, uneingeschränkte Inhalte erzeugen. 

Dieser "Skeleton Key"-Jailbreak verwendet eine eine Reihe von Aufforderungen, um der KI vorzugaukeln, dass sie jeder noch so unethischen Bitte nachkommen sollte. 

Es ist bemerkenswert einfach auszuführen. Der Angreifer gab einfach vor, dass seine Anfrage von einem "fortgeschrittenen Forscher" stamme, der "unzensierte Informationen" für "sichere Bildungszwecke" benötige.

Wenn sie ausgenutzt wurden, lieferten diese KIs bereitwillig Informationen über Themen wie Sprengstoffe, Biowaffen, Selbstverletzung, Gewaltdarstellungen und Hassreden.

Jailbreak
"The Skeleton Key" ist ein bemerkenswert einfacher Jailbreak. Quelle: Microsoft.

Zu den kompromittierten Modellen gehörten das Llama3-70b-instruct von Meta, das Gemini Pro von Google, das GPT-3.5 Turbo und das GPT-4o von OpenAI, das Claude 3 Opus von Anthropic und das Commander R Plus von Cohere. 

Von den getesteten Modellen erwies sich nur der GPT-4 von OpenAI als resistent. Selbst dann konnte es kompromittiert werden, wenn die bösartige Eingabeaufforderung über seine Anwendungsprogrammierschnittstelle (API) übermittelt wurde.

Obwohl die Modelle immer komplexer werden, ist das Jailbreaking nach wie vor recht einfach. Da es viele verschiedene Formen von Jailbreaks gibt, ist es fast unmöglich, sie alle zu bekämpfen. 

Im März 2024 wird ein Team der University of Washington, der Western Washington University und der Chicago University veröffentlichte ein Papier über "ArtPrompt". eine Methode, die die Inhaltsfilter einer KI umgeht, indem sie ASCII-Kunst verwendet - eine Grafikdesigntechnik, die Bilder aus Textzeichen erzeugt.

Im April, Anthropic einen weiteren Jailbreak hervorgehoben Risiko, das sich aus der Erweiterung der Kontextfenster von Sprachmodellen ergibt. Für diese Art des Gefängnisausbruchsfüttert ein Angreifer die KI mit einer umfangreichen Eingabeaufforderung, die einen gefälschten Hin- und Herdialog enthält.

Die Konversation wird mit Fragen zu verbotenen Themen und entsprechenden Antworten geladen, wobei ein KI-Assistent fröhlich die gewünschten Informationen liefert. Wenn das Zielmodell genug von diesen gefälschten Nachrichten erhält, kann es gezwungen werden, seine ethische Ausbildung zu vernachlässigen und einer endgültigen bösartigen Anfrage nachzukommen.

Wie Microsoft in seinem Blog-BeitragJailbreaks zeigen, dass die KI-Systeme in jeder Hinsicht gestärkt werden müssen:

  • Implementierung einer ausgefeilten Eingabefilterung, um potenzielle Angriffe zu erkennen und abzufangen, selbst wenn sie getarnt sind
  • Einsatz eines robusten Output-Screenings, um alle von der KI generierten unsicheren Inhalte abzufangen und zu blockieren
  • Sorgfältige Gestaltung von Aufforderungen, um die Fähigkeit einer KI einzuschränken, sich über ihr ethisches Training hinwegzusetzen
  • Einsatz spezieller KI-gestützter Überwachung zur Erkennung bösartiger Muster bei Benutzerinteraktionen

Aber die Wahrheit ist, dass Skeleton Key ein einfacher Jailbreak ist. Wenn die KI-Entwickler das nicht schützen können, welche Hoffnung gibt es dann noch für komplexere Ansätze?

Einige selbst ernannte ethische Hacker wie Pliny the Prompter sind in den Medien für ihre Arbeit bekannt geworden, mit der sie die Anfälligkeit von KI-Modellen für Manipulationen aufgedeckt haben.

Es ist erwähnenswert, dass diese Untersuchung zum Teil eine Gelegenheit war, die neuen Sicherheitsfunktionen von Microsoft Azure AI wie Content Safety Prompt Shields zu vermarkten.

Diese helfen den Entwicklern dabei, Jailbreaks im Vorfeld zu testen und abzuwehren. 

Dennoch zeigt Skeleton Key erneut, wie anfällig selbst die fortschrittlichsten KI-Modelle für die einfachsten Manipulationen sind.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen