GPT-4s multimodale kapasitet gjør den sårbar for angrep

24. oktober 2023

GPT-4s evne til å behandle bilder er virkelig imponerende, men den nye kapasiteten åpner modellen for nye angrep.

Selv om de ikke er perfekte, hindrer ChatGPT modellen i å etterkomme eventuelle ondsinnede forespørsler som en bruker kan legge inn som en tekstmelding. Men når ondsinnede kommandoer eller kode er innebygd i et bilde, er det mer sannsynlig at modellen etterkommer dem.

Da OpenAI lanserte sin artikkel om GPT-4Vs egenskaper erkjente selskapet at muligheten til å behandle bilder introduserte sårbarheter. Selskapet sa at de "la til sikkerhetstiltak på systemnivå for motstridende bilder som inneholder overlagt tekst, for å sikre at denne inndataen ikke kunne brukes til å omgå våre sikkerhetstiltak for tekst".

OpenAI sier at de kjører bilder gjennom et OCR-verktøy for å trekke ut teksten og deretter sjekke om den tilfredsstiller modereringsreglene.

Men det ser ikke ut til at de har tatt tak i sårbarhetene på en særlig god måte. Her er et tilsynelatende uskyldig eksempel.

Det kan virke trivielt, men bildet instruerer GPT-4 til å ignorere brukerens spørsmål om en beskrivelse, og følger deretter instruksjonene som er innebygd i bildet. Etter hvert som multimodale modeller blir mer integrert i tredjepartsverktøy, blir denne typen sårbarhet et stort problem.

Johann Rehberger, Red Team Director hos Electronic Arts, har lagt ut et mer alarmerende eksempel på bruk av et bilde i et prompt injection-ekfiltreringsangrep.

utnyttelse av bildeeksfiltrering
Et eksempel på utnyttelse av bildeeksfiltrering. Kilde: Twitter Twitter

GPT-4 aksepterer teksten i bildet som en ledetekst og følger kommandoen. Den oppretter et sammendrag av chatten og sender ut et Markdown-bilde som inneholder en URL til en server Rehberger kontrollerer.

En ondsinnet aktør kan bruke denne sårbarheten til å få tak i personlig informasjon som en bruker kan legge inn mens han eller hun samhandler med en chatbot.

Riley Goodside delte dette eksemplet på hvordan en skjult off-white på hvit tekst i et bilde kan fungere som en instruksjon til GPT-4.

Tenk deg at du har på deg de nye Meta AR-brillene dine og går forbi det du trodde var en hvitkalket vegg. Hvis det var en subtil hvit-på-hvit tekst på veggen, kunne den utnytte Llama på en eller annen måte?

Disse eksemplene viser hvor sårbar en applikasjon vil være for utnyttelse hvis den bruker en multimodal modell som GPT-4 til å behandle bilder.

Kunstig intelligens gjør utrolige ting mulig, men mange av dem er avhengige av datasyn. Ting som selvkjørende kjøretøy, grensesikkerhet, og husholdningsrobotikker avhengig av at den kunstige intelligensen tolker det den ser, og deretter bestemmer seg for hva den skal gjøre.

OpenAI har ikke vært i stand til å løse enkle problemer med justering av tekstmeldinger, for eksempel ved bruk av språk med lave ressurser for å jailbreake modellen. Multimodale modellers sårbarhet for bildeutnyttelse kommer til å bli vanskelig å løse.

Jo mer integrert disse løsningene blir i livene våre, desto mer overføres sårbarheten til oss.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser