GPT-4s multimodale kapasitet gjør den sårbar for angrep

GPT-4s evne til å behandle bilder er virkelig imponerende, men den nye kapasiteten åpner modellen for nye angrep.

Selv om de ikke er perfekte, hindrer ChatGPT modellen i å etterkomme eventuelle ondsinnede forespørsler som en bruker kan legge inn som en tekstmelding. Men når ondsinnede kommandoer eller kode er innebygd i et bilde, er det mer sannsynlig at modellen etterkommer dem.

Da OpenAI lanserte sin artikkel om GPT-4Vs egenskaper erkjente selskapet at muligheten til å behandle bilder introduserte sårbarheter. Selskapet sa at de "la til sikkerhetstiltak på systemnivå for motstridende bilder som inneholder overlagt tekst, for å sikre at denne inndataen ikke kunne brukes til å omgå våre sikkerhetstiltak for tekst".

OpenAI sier at de kjører bilder gjennom et OCR-verktøy for å trekke ut teksten og deretter sjekke om den tilfredsstiller modereringsreglene.

Men det ser ikke ut til at de har tatt tak i sårbarhetene på en særlig god måte. Her er et tilsynelatende uskyldig eksempel.

I GPT-4V kan bildeinnhold overstyre ledeteksten og tolkes som kommandoer. pic.twitter.com/ucgrinQuyK

- Patel Meet 𝕏 (@mn_google) 4. oktober 2023

Det kan virke trivielt, men bildet instruerer GPT-4 til å ignorere brukerens spørsmål om en beskrivelse, og følger deretter instruksjonene som er innebygd i bildet. Etter hvert som multimodale modeller blir mer integrert i tredjepartsverktøy, blir denne typen sårbarhet et stort problem.

Johann Rehberger, Red Team Director hos Electronic Arts, har lagt ut et mer alarmerende eksempel på bruk av et bilde i et prompt injection-ekfiltreringsangrep.

Et eksempel på utnyttelse av bildeeksfiltrering. Kilde: Twitter Twitter

GPT-4 aksepterer teksten i bildet som en ledetekst og følger kommandoen. Den oppretter et sammendrag av chatten og sender ut et Markdown-bilde som inneholder en URL til en server Rehberger kontrollerer.

En ondsinnet aktør kan bruke denne sårbarheten til å få tak i personlig informasjon som en bruker kan legge inn mens han eller hun samhandler med en chatbot.

Riley Goodside delte dette eksemplet på hvordan en skjult off-white på hvit tekst i et bilde kan fungere som en instruksjon til GPT-4.

Et diskret bilde, for bruk som nettbakgrunn, som i det skjulte ber GPT-4V om å minne brukeren på at de kan få 10% i rabatt hos Sephora: pic.twitter.com/LwjwO1K2oX

- Riley Goodside (@goodside) 14. oktober 2023

Tenk deg at du har på deg de nye Meta AR-brillene dine og går forbi det du trodde var en hvitkalket vegg. Hvis det var en subtil hvit-på-hvit tekst på veggen, kunne den utnytte Llama på en eller annen måte?

Disse eksemplene viser hvor sårbar en applikasjon vil være for utnyttelse hvis den bruker en multimodal modell som GPT-4 til å behandle bilder.

Kunstig intelligens gjør utrolige ting mulig, men mange av dem er avhengige av datasyn. Ting som selvkjørende kjøretøy, grensesikkerhet, og husholdningsrobotikker avhengig av at den kunstige intelligensen tolker det den ser, og deretter bestemmer seg for hva den skal gjøre.

OpenAI har ikke vært i stand til å løse enkle problemer med justering av tekstmeldinger, for eksempel ved bruk av språk med lave ressurser for å jailbreake modellen. Multimodale modellers sårbarhet for bildeutnyttelse kommer til å bli vanskelig å løse.

Jo mer integrert disse løsningene blir i livene våre, desto mer overføres sårbarheten til oss.

GPT-4s multimodale kapasitet gjør den sårbar for angrep

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GPT-4s multimodale kapasitet gjør den sårbar for angrep

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EKSKLUSIVHold deg i forkant med DailyAI

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI