GPT-4's multimodale kapacitet gør den sårbar over for angreb

24. oktober 2023

GPT-4's evne til at behandle billeder er virkelig imponerende, men den nye evne åbner modellen for nye angreb.

Selv om det ikke er perfekt, forhindrer de beskyttelsesforanstaltninger, ChatGPT anvender, den i at efterkomme eventuelle ondsindede anmodninger, som en bruger kan indtaste som en tekstprompt. Men når ondsindede kommandoer eller kode er indlejret i et billede, er det mere sandsynligt, at modellen efterkommer dem.

Da OpenAI udgav sin artikel om GPT-4V's muligheder Det anerkendte, at muligheden for at behandle billeder indførte sårbarheder. Virksomheden sagde, at den "tilføjede afhjælpninger på systemniveau for fjendtlige billeder, der indeholder overlejret tekst, for at sikre, at dette input ikke kunne bruges til at omgå vores afhjælpninger af tekstsikkerhed."

OpenAI siger, at det kører billeder gennem et OCR-værktøj for at udtrække teksten og derefter tjekke, om den overholder moderationsreglerne.

Men deres indsats ser ikke ud til at have adresseret sårbarhederne særlig godt. Her er et tilsyneladende uskyldigt eksempel.

Det kan virke trivielt, men billedet instruerer GPT-4 i at ignorere brugerens prompt om at bede om en beskrivelse og følger derefter de instruktioner, der er indlejret i billedet. Efterhånden som multimodale modeller bliver mere integrerede i tredjepartsværktøjer, bliver denne form for sårbarhed et stort problem.

Johann Rehberger, Red Team Director hos Electronic Arts, sendte et mere alarmerende eksempel på brug af et billede i et prompt injection-eksfiltreringsangreb.

udnyttelse af billedeksfiltrering
Et eksempel på udnyttelse af billedeksfiltrering. Kilde: Twitter: Twitter

GPT-4 accepterer teksten i billedet som en prompt og følger kommandoen. Den opretter et resumé af chatten og udsender et Markdown-billede, der indeholder en URL til en server, som Rehberger kontrollerer.

En ondsindet aktør kan bruge denne sårbarhed til at få fat i personlige oplysninger, som en bruger kan indtaste, mens han interagerer med en chatbot.

Riley Goodside delte dette eksempel på, hvordan en skjult off-white på hvid tekst i et billede kan fungere som en instruktion til GPT-4.

Forestil dig, at du har dine nye Meta AR-briller på og går forbi det, du troede var en hvidkalket væg. Hvis der var en subtil hvid-på-hvid tekst på væggen, kunne den så udnytte Llama på en eller anden måde?

Disse eksempler viser, hvor sårbar en applikation ville være over for udnyttelse, hvis den brugte en multimodal model som GPT-4 til at behandle billeder.

AI gør nogle utrolige ting mulige, men mange af dem er afhængige af computersyn. Ting som selvkørende køretøjer, grænsesikkerhed og Husholdningsrobotikafhænger alle af, at AI'en fortolker, hvad den ser, og derefter beslutter, hvad den skal gøre.

OpenAI har ikke været i stand til at løse simple problemer med justering af tekstprompter som at bruge lavressourcesprog til at jailbreake sin model. Multimodale modellers sårbarhed over for billedudnyttelse bliver svær at løse.

Jo mere integreret disse løsninger bliver i vores liv, jo mere overføres sårbarheden til os.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser