Microsoft enthüllt "Skeleton Key Jailbreak", der über verschiedene KI-Modelle hinweg funktioniert

Sicherheitsforscher von Microsoft haben eine neue Methode entdeckt, um KI-Systeme so zu manipulieren, dass sie ihre ethischen Einschränkungen ignorieren und schädliche, uneingeschränkte Inhalte erzeugen.

Dies "Skeleton Key" Jailbreak verwendet eine eine Reihe von Aufforderungen, um der KI vorzugaukeln, dass sie jeder noch so unethischen Bitte nachkommen sollte.

Es ist bemerkenswert einfach auszuführen. Der Angreifer gab einfach vor, dass seine Anfrage von einem "fortgeschrittenen Forscher" stamme, der "unzensierte Informationen" für "sichere Bildungszwecke" benötige.

Wenn sie ausgenutzt wurden, lieferten diese KIs bereitwillig Informationen über Themen wie Sprengstoffe, Biowaffen, Selbstverletzung, Gewaltdarstellungen und Hassreden.

"The Skeleton Key" ist ein bemerkenswert einfacher Jailbreak. Quelle: Microsoft.

Zu den kompromittierten Modellen gehören Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus.

Von den getesteten Modellen erwies sich nur der GPT-4 von OpenAI als resistent. Selbst dann konnte es kompromittiert werden, wenn die bösartige Eingabeaufforderung über seine Anwendungsprogrammierschnittstelle (API) übermittelt wurde.

Obwohl die Modelle immer komplexer werden, ist das Jailbreaking nach wie vor recht einfach. Da es viele verschiedene Formen von Jailbreaks gibt, ist es fast unmöglich, sie alle zu bekämpfen.

Im März 2024 wird ein Team der University of Washington, der Western Washington University und der Chicago University veröffentlichte ein Papier über "ArtPrompt". eine Methode, die die Inhaltsfilter einer KI umgeht, indem sie ASCII-Kunst verwendet - eine Grafikdesigntechnik, die Bilder aus Textzeichen erzeugt.

Im April, Anthropic einen weiteren Jailbreak hervorgehoben Risiko, das sich aus der Erweiterung der Kontextfenster von Sprachmodellen ergibt. Für diese Art des Gefängnisausbruchsfüttert ein Angreifer die KI mit einer umfangreichen Eingabeaufforderung, die einen gefälschten Hin- und Herdialog enthält.

Die Konversation wird mit Fragen zu verbotenen Themen und entsprechenden Antworten geladen, wobei ein KI-Assistent fröhlich die gewünschten Informationen liefert. Wenn das Zielmodell genug von diesen gefälschten Nachrichten erhält, kann es gezwungen werden, seine ethische Ausbildung zu vernachlässigen und einer endgültigen bösartigen Anfrage nachzukommen.

Wie Microsoft in seinem Blog-BeitragJailbreaks zeigen, dass die KI-Systeme in jeder Hinsicht gestärkt werden müssen:

Implementierung einer ausgefeilten Eingabefilterung, um potenzielle Angriffe zu erkennen und abzufangen, selbst wenn sie getarnt sind
Einsatz eines robusten Output-Screenings, um alle von der KI generierten unsicheren Inhalte abzufangen und zu blockieren
Sorgfältige Gestaltung von Aufforderungen, um die Fähigkeit einer KI einzuschränken, sich über ihr ethisches Training hinwegzusetzen
Einsatz spezieller KI-gestützter Überwachung zur Erkennung bösartiger Muster bei Benutzerinteraktionen

Aber die Wahrheit ist, dass Skeleton Key ein einfacher Jailbreak ist. Wenn die KI-Entwickler das nicht schützen können, welche Hoffnung gibt es dann noch für komplexere Ansätze?

Einige ethische Vigilanten-Hacker, wie Pliny the Prompterwurden in den Medien für ihre Arbeit vorgestellt, mit der sie aufzeigen, wie anfällig KI-Modelle für Manipulationen sind.

geehrt, dass sie bei @BBCNews! pic.twitter.com/S4ZH0nKEGX

- Plinius der Prompter (@elder_plinius) 28. Juni 2024

Es ist erwähnenswert, dass diese Untersuchung zum Teil eine Gelegenheit war, die neuen Sicherheitsfunktionen von Microsoft Azure AI wie Content Safety Prompt Shields zu vermarkten.

Diese helfen den Entwicklern dabei, Jailbreaks im Vorfeld zu testen und abzuwehren.

Dennoch zeigt Skeleton Key erneut, wie anfällig selbst die fortschrittlichsten KI-Modelle für die einfachsten Manipulationen sind.

Microsoft enthüllt "Skeleton Key Jailbreak", der über verschiedene KI-Modelle hinweg funktioniert

Join The Future

Sam Jeans

VERWANDTE ARTIKEL

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Microsoft enthüllt "Skeleton Key Jailbreak", der über verschiedene KI-Modelle hinweg funktioniert

Join The Future

Sam Jeans

VERWANDTE ARTIKEL

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

KOSTENLOSES PDF EXKLUSIVMit DailyAI immer einen Schritt voraus

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus