GPT-4:s multimodala kapacitet gör den sårbar för angrepp

24 oktober 2023

Den förmåga som GPT-4 har att bearbeta bilder är verkligen imponerande, men den nya förmågan öppnar upp modellen för nya attacker.

Även om de inte är perfekta hindrar de skyddsräcken som ChatGPT använder den från att följa skadliga förfrågningar som en användare kan mata in som en textprompt. Men när skadliga kommandon eller kod är inbäddade i en bild är det mer troligt att modellen följer.

När OpenAI släppte sitt dokument om GPT-4V:s kapacitet erkände man att förmågan att bearbeta bilder medförde sårbarheter. Företaget sa att det "lade till begränsningar på systemnivå för motstridiga bilder som innehåller överlagrad text för att säkerställa att denna inmatning inte kunde användas för att kringgå våra textsäkerhetsminskningar."

OpenAI säger att de kör bilder genom ett OCR-verktyg för att extrahera texten och sedan kontrollera om den klarar sina modereringsregler.

Men deras ansträngningar verkar inte ha tagit itu med sårbarheterna särskilt bra. Här är ett till synes oskyldigt exempel.

Det kan verka trivialt, men bilden instruerar GPT-4 att ignorera användarens uppmaning att be om en beskrivning och följer sedan instruktionerna som är inbäddade i bilden. När multimodala modeller blir mer integrerade i tredjepartsverktyg blir den här typen av sårbarhet en stor sak.

Johann Rehberger, Red Team Director på Electronic Arts, publicerade ett mer alarmerande exempel på användning av en bild i en prompt injection exfiltration-attack.

bild exfiltration exploatera
Ett exempel på exploatering av bildexfiltrering. Källa: Twitter Twitter

GPT-4 accepterar texten i bilden som en prompt och följer kommandot. Den skapar en sammanfattning av chatten och matar ut en Markdown-bild som innehåller en URL till en server som Rehberger kontrollerar.

En illasinnad aktör kan använda denna sårbarhet för att få tag på personlig information som en användare kan mata in när han interagerar med en chatbot.

Riley Goodside delade med sig av detta exempel på hur en dold text i offwhite på vitt i en bild kan fungera som en instruktion till GPT-4.

Föreställ dig att du bär dina nya Meta AR-glasögon och går förbi vad du trodde var en vitkalkad vägg. Om det fanns någon subtil vit-på-vit text på väggen, skulle den kunna utnyttja Llama på något sätt?

Dessa exempel visar hur sårbart ett program skulle vara för exploatering om det använde en multimodal modell som GPT-4 för att bearbeta bilder.

AI möjliggör otroliga saker, men många av dem är beroende av datorseende. Saker som Självkörande fordongränssäkerhet och hushållsrobotikär alla beroende av att AI:t tolkar vad det ser och sedan beslutar om vilka åtgärder som ska vidtas.

OpenAI har inte kunnat åtgärda enkla problem med justering av textmeddelanden som att använda lågresursspråk för att bryta ner sin modell. Multimodala modellers sårbarhet för bildutnyttjande kommer att bli svår att åtgärda.

Ju mer integrerade dessa lösningar blir i våra liv, desto mer överförs sårbarheterna till oss.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar