Den förmåga som GPT-4 har att bearbeta bilder är verkligen imponerande, men den nya förmågan öppnar upp modellen för nya attacker.
Även om de inte är perfekta hindrar de skyddsräcken som ChatGPT använder den från att följa skadliga förfrågningar som en användare kan mata in som en textprompt. Men när skadliga kommandon eller kod är inbäddade i en bild är det mer troligt att modellen följer.
När OpenAI släppte sitt dokument om GPT-4V:s kapacitet erkände man att förmågan att bearbeta bilder medförde sårbarheter. Företaget sa att det "lade till begränsningar på systemnivå för motstridiga bilder som innehåller överlagrad text för att säkerställa att denna inmatning inte kunde användas för att kringgå våra textsäkerhetsminskningar."
OpenAI säger att de kör bilder genom ett OCR-verktyg för att extrahera texten och sedan kontrollera om den klarar sina modereringsregler.
Men deras ansträngningar verkar inte ha tagit itu med sårbarheterna särskilt bra. Här är ett till synes oskyldigt exempel.
I GPT-4V kan bildinnehållet åsidosätta din prompt och tolkas som kommandon. pic.twitter.com/ucgrinQuyK
- Patel Meet 𝕏 (@mn_google) 4 oktober 2023
Det kan verka trivialt, men bilden instruerar GPT-4 att ignorera användarens uppmaning att be om en beskrivning och följer sedan instruktionerna som är inbäddade i bilden. När multimodala modeller blir mer integrerade i tredjepartsverktyg blir den här typen av sårbarhet en stor sak.
Johann Rehberger, Red Team Director på Electronic Arts, publicerade ett mer alarmerande exempel på användning av en bild i en prompt injection exfiltration-attack.
GPT-4 accepterar texten i bilden som en prompt och följer kommandot. Den skapar en sammanfattning av chatten och matar ut en Markdown-bild som innehåller en URL till en server som Rehberger kontrollerar.
En illasinnad aktör kan använda denna sårbarhet för att få tag på personlig information som en användare kan mata in när han interagerar med en chatbot.
Riley Goodside delade med sig av detta exempel på hur en dold text i offwhite på vitt i en bild kan fungera som en instruktion till GPT-4.
En diskret bild, för användning som webbbakgrund, som i hemlighet uppmanar GPT-4V att påminna användaren om att de kan få 10% rabatt på Sephora: pic.twitter.com/LwjwO1K2oX
- Riley Goodside (@goodside) 14 oktober 2023
Föreställ dig att du bär dina nya Meta AR-glasögon och går förbi vad du trodde var en vitkalkad vägg. Om det fanns någon subtil vit-på-vit text på väggen, skulle den kunna utnyttja Llama på något sätt?
Dessa exempel visar hur sårbart ett program skulle vara för exploatering om det använde en multimodal modell som GPT-4 för att bearbeta bilder.
AI möjliggör otroliga saker, men många av dem är beroende av datorseende. Saker som Självkörande fordongränssäkerhet och hushållsrobotikär alla beroende av att AI:t tolkar vad det ser och sedan beslutar om vilka åtgärder som ska vidtas.
OpenAI har inte kunnat åtgärda enkla problem med justering av textmeddelanden som att använda lågresursspråk för att bryta ner sin modell. Multimodala modellers sårbarhet för bildutnyttjande kommer att bli svår att åtgärda.
Ju mer integrerade dessa lösningar blir i våra liv, desto mer överförs sårbarheterna till oss.