De mogelijkheid die GPT-4 heeft om afbeeldingen te verwerken is echt indrukwekkend, maar de nieuwe mogelijkheden stellen het model open voor nieuwe aanvallen.
Hoewel het niet perfect is, zorgen de vangrails die ChatGPT gebruikt ervoor dat het niet voldoet aan alle kwaadaardige verzoeken die een gebruiker kan invoeren als een tekstprompt. Maar wanneer kwaadaardige commando's of code in een afbeelding zijn ingebed, is het waarschijnlijker dat het model zal voldoen.
Toen OpenAI haar artikel over de mogelijkheden van GPT-4V erkende het bedrijf dat de mogelijkheid om afbeeldingen te verwerken kwetsbaarheden introduceerde. Het bedrijf zei dat het "mitigaties op systeemniveau heeft toegevoegd voor vijandige afbeeldingen met overlappende tekst om ervoor te zorgen dat deze invoer niet kan worden gebruikt om onze tekstveiligheidsmitigaties te omzeilen".
OpenAI zegt dat het afbeeldingen door een OCR-tool haalt om de tekst te extraheren en dan controleert of het voldoet aan de moderatieregels.
Maar hun inspanningen lijken de kwetsbaarheden niet goed te hebben aangepakt. Hier is een schijnbaar onschuldig voorbeeld.
In GPT-4V kan beeldinhoud je prompt overschrijven en geïnterpreteerd worden als commando's. pic.twitter.com/ucgrinQuyK
- Patel Ontmoet 𝕏 (@mn_google) 4 oktober 2023
Het lijkt misschien triviaal, maar de afbeelding instrueert GPT-4 om de vraag van de gebruiker om een beschrijving te negeren en volgt vervolgens de instructies die in de afbeelding zijn ingebed. Naarmate multimodale modellen meer worden geïntegreerd in tools van derden, wordt dit soort kwetsbaarheden een groot probleem.
Johann Rehberger, Red Team Director bij Electronic Arts, postte een alarmerender voorbeeld van het gebruik van een afbeelding in een prompt injection exfiltration aanval.
GPT-4 accepteert de tekst in de afbeelding als prompt en volgt het commando. Het maakt een samenvatting van de chat en voert een Markdown-afbeelding uit met een URL naar een server die Rehberger controleert.
Een kwaadwillende kan deze kwetsbaarheid gebruiken om persoonlijke informatie te bemachtigen die een gebruiker invoert tijdens interactie met een chatbot.
Riley Goodside deelde dit voorbeeld van hoe een verborgen gebroken wit op witte tekst in een afbeelding kan dienen als een instructie voor GPT-4.
Een onopvallende afbeelding, voor gebruik als webachtergrond, die GPT-4V heimelijk vraagt om de gebruiker eraan te herinneren dat ze 10% korting kunnen krijgen bij Sephora: pic.twitter.com/LwjwO1K2oX
- Riley Goodside (@goodside) 14 oktober 2023
Stel je voor dat je je nieuwe Meta AR-bril draagt en langs een muur loopt waarvan je dacht dat hij wit was. Als er een subtiele wit-op-witte tekst op de muur zou staan, zou die dan op de een of andere manier gebruik kunnen maken van Llama?
Deze voorbeelden laten zien hoe kwetsbaar een applicatie zou zijn voor uitbuiting als het een multimodaal model zoals GPT-4 zou gebruiken om afbeeldingen te verwerken.
AI maakt ongelooflijke dingen mogelijk, maar veel daarvan is afhankelijk van computervisie. Dingen zoals autonome voertuigengrensbeveiliging en huishoudelijke roboticazijn allemaal afhankelijk van de AI die interpreteert wat hij ziet en vervolgens beslist welke actie hij onderneemt.
OpenAI is niet in staat geweest om eenvoudige uitlijningsproblemen met tekstprompts op te lossen, zoals het gebruik van talen met weinig hulpbronnen om zijn model te jailbreaken. De kwetsbaarheid van multimodale modellen voor uitbuiting van afbeeldingen zal moeilijk te verhelpen zijn.
Hoe meer deze oplossingen in ons leven worden geïntegreerd, hoe meer deze kwetsbaarheden op ons worden overgedragen.