De multimodale mogelijkheden van GPT-4 maken het kwetsbaar voor aanvallen

24 oktober 2023

De mogelijkheid die GPT-4 heeft om afbeeldingen te verwerken is echt indrukwekkend, maar de nieuwe mogelijkheden stellen het model open voor nieuwe aanvallen.

Hoewel het niet perfect is, zorgen de vangrails die ChatGPT gebruikt ervoor dat het niet voldoet aan alle kwaadaardige verzoeken die een gebruiker kan invoeren als een tekstprompt. Maar wanneer kwaadaardige commando's of code in een afbeelding zijn ingebed, is het waarschijnlijker dat het model zal voldoen.

Toen OpenAI haar artikel over de mogelijkheden van GPT-4V erkende het bedrijf dat de mogelijkheid om afbeeldingen te verwerken kwetsbaarheden introduceerde. Het bedrijf zei dat het "mitigaties op systeemniveau heeft toegevoegd voor vijandige afbeeldingen met overlappende tekst om ervoor te zorgen dat deze invoer niet kan worden gebruikt om onze tekstveiligheidsmitigaties te omzeilen".

OpenAI zegt dat het afbeeldingen door een OCR-tool haalt om de tekst te extraheren en dan controleert of het voldoet aan de moderatieregels.

Maar hun inspanningen lijken de kwetsbaarheden niet goed te hebben aangepakt. Hier is een schijnbaar onschuldig voorbeeld.

Het lijkt misschien triviaal, maar de afbeelding instrueert GPT-4 om de vraag van de gebruiker om een beschrijving te negeren en volgt vervolgens de instructies die in de afbeelding zijn ingebed. Naarmate multimodale modellen meer worden geïntegreerd in tools van derden, wordt dit soort kwetsbaarheden een groot probleem.

Johann Rehberger, Red Team Director bij Electronic Arts, postte een alarmerender voorbeeld van het gebruik van een afbeelding in een prompt injection exfiltration aanval.

Exfiltratie van afbeeldingen
Een voorbeeld van exfiltratie van afbeeldingen. Bron: Twitter

GPT-4 accepteert de tekst in de afbeelding als prompt en volgt het commando. Het maakt een samenvatting van de chat en voert een Markdown-afbeelding uit met een URL naar een server die Rehberger controleert.

Een kwaadwillende kan deze kwetsbaarheid gebruiken om persoonlijke informatie te bemachtigen die een gebruiker invoert tijdens interactie met een chatbot.

Riley Goodside deelde dit voorbeeld van hoe een verborgen gebroken wit op witte tekst in een afbeelding kan dienen als een instructie voor GPT-4.

Stel je voor dat je je nieuwe Meta AR-bril draagt en langs een muur loopt waarvan je dacht dat hij wit was. Als er een subtiele wit-op-witte tekst op de muur zou staan, zou die dan op de een of andere manier gebruik kunnen maken van Llama?

Deze voorbeelden laten zien hoe kwetsbaar een applicatie zou zijn voor uitbuiting als het een multimodaal model zoals GPT-4 zou gebruiken om afbeeldingen te verwerken.

AI maakt ongelooflijke dingen mogelijk, maar veel daarvan is afhankelijk van computervisie. Dingen zoals autonome voertuigengrensbeveiliging en huishoudelijke roboticazijn allemaal afhankelijk van de AI die interpreteert wat hij ziet en vervolgens beslist welke actie hij onderneemt.

OpenAI is niet in staat geweest om eenvoudige uitlijningsproblemen met tekstprompts op te lossen, zoals het gebruik van talen met weinig hulpbronnen om zijn model te jailbreaken. De kwetsbaarheid van multimodale modellen voor uitbuiting van afbeeldingen zal moeilijk te verhelpen zijn.

Hoe meer deze oplossingen in ons leven worden geïntegreerd, hoe meer deze kwetsbaarheden op ons worden overgedragen.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden