GPT-4's evne til at behandle billeder er virkelig imponerende, men den nye evne åbner modellen for nye angreb.
Selv om det ikke er perfekt, forhindrer de beskyttelsesforanstaltninger, ChatGPT anvender, den i at efterkomme eventuelle ondsindede anmodninger, som en bruger kan indtaste som en tekstprompt. Men når ondsindede kommandoer eller kode er indlejret i et billede, er det mere sandsynligt, at modellen efterkommer dem.
Da OpenAI udgav sin artikel om GPT-4V's muligheder Det anerkendte, at muligheden for at behandle billeder indførte sårbarheder. Virksomheden sagde, at den "tilføjede afhjælpninger på systemniveau for fjendtlige billeder, der indeholder overlejret tekst, for at sikre, at dette input ikke kunne bruges til at omgå vores afhjælpninger af tekstsikkerhed."
OpenAI siger, at det kører billeder gennem et OCR-værktøj for at udtrække teksten og derefter tjekke, om den overholder moderationsreglerne.
Men deres indsats ser ikke ud til at have adresseret sårbarhederne særlig godt. Her er et tilsyneladende uskyldigt eksempel.
I GPT-4V kan billedindhold tilsidesætte din prompt og fortolkes som kommandoer. pic.twitter.com/ucgrinQuyK
- Patel Meet 𝕏 (@mn_google) 4. oktober 2023
Det kan virke trivielt, men billedet instruerer GPT-4 i at ignorere brugerens prompt om at bede om en beskrivelse og følger derefter de instruktioner, der er indlejret i billedet. Efterhånden som multimodale modeller bliver mere integrerede i tredjepartsværktøjer, bliver denne form for sårbarhed et stort problem.
Johann Rehberger, Red Team Director hos Electronic Arts, sendte et mere alarmerende eksempel på brug af et billede i et prompt injection-eksfiltreringsangreb.
GPT-4 accepterer teksten i billedet som en prompt og følger kommandoen. Den opretter et resumé af chatten og udsender et Markdown-billede, der indeholder en URL til en server, som Rehberger kontrollerer.
En ondsindet aktør kan bruge denne sårbarhed til at få fat i personlige oplysninger, som en bruger kan indtaste, mens han interagerer med en chatbot.
Riley Goodside delte dette eksempel på, hvordan en skjult off-white på hvid tekst i et billede kan fungere som en instruktion til GPT-4.
Et diskret billede til brug som webbaggrund, der i det skjulte beder GPT-4V om at minde brugeren om, at de kan få 10% i rabat hos Sephora: pic.twitter.com/LwjwO1K2oX
- Riley Goodside (@goodside) 14. oktober 2023
Forestil dig, at du har dine nye Meta AR-briller på og går forbi det, du troede var en hvidkalket væg. Hvis der var en subtil hvid-på-hvid tekst på væggen, kunne den så udnytte Llama på en eller anden måde?
Disse eksempler viser, hvor sårbar en applikation ville være over for udnyttelse, hvis den brugte en multimodal model som GPT-4 til at behandle billeder.
AI gør nogle utrolige ting mulige, men mange af dem er afhængige af computersyn. Ting som selvkørende køretøjer, grænsesikkerhed og Husholdningsrobotikafhænger alle af, at AI'en fortolker, hvad den ser, og derefter beslutter, hvad den skal gøre.
OpenAI har ikke været i stand til at løse simple problemer med justering af tekstprompter som at bruge lavressourcesprog til at jailbreake sin model. Multimodale modellers sårbarhed over for billedudnyttelse bliver svær at løse.
Jo mere integreret disse løsninger bliver i vores liv, jo mere overføres sårbarheden til os.