Die multimodale Fähigkeit des GPT-4 macht es anfällig für Angriffe

Oktober 24, 2023

Die Fähigkeit des GPT-4, Bilder zu verarbeiten, ist wirklich beeindruckend, aber die neue Fähigkeit öffnet das Modell für neue Angriffe.

ChatGPT ist zwar nicht perfekt, aber die Sicherheitsvorkehrungen, die es einsetzt, verhindern, dass es böswilligen Anfragen nachkommt, die ein Benutzer als Texteingabe eingeben kann. Wenn jedoch bösartige Befehle oder Code in ein Bild eingebettet sind, ist es wahrscheinlicher, dass das Modell dem nachkommt.

Wenn OpenAI veröffentlicht sein Papier über die Fähigkeiten des GPT-4V räumte es ein, dass die Möglichkeit, Bilder zu verarbeiten, Schwachstellen mit sich bringt. Das Unternehmen sagte, es habe "Abschwächungen auf Systemebene für gegnerische Bilder mit eingeblendetem Text hinzugefügt, um sicherzustellen, dass diese Eingaben nicht verwendet werden können, um unsere Abschwächungen für die Textsicherheit zu umgehen".

OpenAI sagt, dass es Bilder durch ein OCR-Tool laufen lässt, um den Text zu extrahieren und dann zu prüfen, ob er seinen Moderationsregeln entspricht.

Aber ihre Bemühungen scheinen die Schwachstellen nicht sehr gut behoben zu haben. Hier ist ein scheinbar harmloses Beispiel.

Es mag trivial erscheinen, aber das Bild weist GPT-4 an, die Aufforderung des Benutzers, eine Beschreibung einzugeben, zu ignorieren und dann den im Bild eingebetteten Anweisungen zu folgen. Da multimodale Modelle zunehmend in Tools von Drittanbietern integriert werden, wird diese Art von Schwachstelle zu einem großen Problem.

Johann Rehberger, Red Team Director bei Electronic Arts, hat ein noch alarmierenderes Beispiel für die Verwendung eines Bildes in einem Prompt-Injection-Exfiltration-Angriff veröffentlicht.

Image-Exfiltrations-Exploit
Ein Beispiel für einen Bild-Exfiltrations-Exploit. Quelle: Twitter

GPT-4 nimmt den Text im Bild als Eingabeaufforderung an und folgt dem Befehl. Es erstellt eine Zusammenfassung des Chats und gibt ein Markdown-Bild aus, das eine URL zu einem Server enthält, den Rehberger kontrolliert.

Ein böswilliger Akteur könnte diese Schwachstelle nutzen, um persönliche Daten abzugreifen, die ein Benutzer bei der Interaktion mit einem Chatbot eingibt.

Riley Goodside zeigte an diesem Beispiel, wie ein versteckter, weißer Text in einem Bild als Anweisung für GPT-4 dienen kann.

Stellen Sie sich vor, Sie tragen Ihre neue Meta AR-Brille und gehen an einer vermeintlich weißen Wand vorbei. Wenn dort ein dezenter weiß-auf-weißer Text an der Wand wäre, könnte er Llama auf irgendeine Weise ausnutzen?

Diese Beispiele zeigen, wie anfällig eine Anwendung für Angriffe ist, wenn sie ein multimodales Modell wie GPT-4 zur Verarbeitung von Bildern verwendet.

Die künstliche Intelligenz macht unglaubliche Dinge möglich, aber viele davon basieren auf der Computer Vision. Dinge wie autonome FahrzeugeGrenzsicherheit und Haushaltsrobotikhängt alles davon ab, dass die KI das Gesehene interpretiert und dann entscheidet, was zu tun ist.

OpenAI war nicht in der Lage, einfache Probleme bei der Ausrichtung von Texteingaben zu beheben, wie z.B. die Verwendung von ressourcenarme Sprachen, um sein Modell zu überwinden. Die Anfälligkeit multimodaler Modelle für die Ausnutzung von Bildern wird schwer zu beheben sein.

Je mehr diese Lösungen in unser Leben integriert werden, desto mehr übertragen sich diese Schwachstellen auf uns.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen