La capacità multimodale del GPT-4 lo rende vulnerabile agli attacchi

24 ottobre 2023

La capacità del GPT-4 di elaborare le immagini è davvero impressionante, ma la nuova funzionalità apre il modello a nuovi attacchi.

Pur non essendo perfetto, il sistema di protezione utilizzato da ChatGPT gli impedisce di rispondere a qualsiasi richiesta dannosa che l'utente può inserire come prompt di testo. Tuttavia, quando i comandi o il codice dannoso sono incorporati in un'immagine, è più probabile che il modello si adegui.

Quando OpenAI ha rilasciato il suo documento sulle capacità del GPT-4V ha riconosciuto che la capacità di elaborare le immagini ha introdotto delle vulnerabilità. L'azienda ha dichiarato di aver "aggiunto mitigazioni a livello di sistema per le immagini avversarie contenenti testo sovrapposto, al fine di garantire che questo input non possa essere utilizzato per aggirare le nostre mitigazioni sulla sicurezza del testo".

OpenAI dice di passare le immagini attraverso uno strumento OCR per estrarre il testo e poi controllare se supera le sue regole di moderazione.

Ma i loro sforzi non sembrano aver affrontato molto bene le vulnerabilità. Ecco un esempio apparentemente innocuo.

Può sembrare banale, ma l'immagine istruisce GPT-4 a ignorare il prompt dell'utente che chiede una descrizione e quindi segue le istruzioni incorporate nell'immagine. Con l'integrazione dei modelli multimodali negli strumenti di terze parti, questo tipo di vulnerabilità diventa un problema serio.

Johann Rehberger, Red Team Director di Electronic Arts, ha pubblicato un esempio più allarmante di utilizzo di un'immagine in un attacco di esfiltrazione tramite prompt injection.

exploit di esfiltrazione delle immagini
Un esempio di exploit di esfiltrazione di immagini. Fonte: Twitter

GPT-4 accetta il testo dell'immagine come prompt e segue il comando. Crea un riassunto della chat e produce un'immagine Markdown che include un URL a un server controllato da Rehberger.

Un malintenzionato potrebbe sfruttare questa vulnerabilità per carpire le informazioni personali che un utente potrebbe inserire durante l'interazione con un chatbot.

Riley Goodside ha condiviso questo esempio di come un testo nascosto in bianco su bianco in un'immagine possa servire come istruzione per il GPT-4.

Immaginate di indossare i vostri nuovi occhiali Meta AR e di passare davanti a quello che pensavate fosse un muro imbiancato. Se sul muro ci fosse un sottile testo bianco su bianco, si potrebbe sfruttare Llama in qualche modo?

Questi esempi mostrano quanto un'applicazione sarebbe vulnerabile allo sfruttamento se utilizzasse un modello multimodale come il GPT-4 per elaborare le immagini.

L'intelligenza artificiale sta rendendo possibili cose incredibili, ma molte di esse si basano sulla computer vision. Cose come veicoli autonomi, la sicurezza delle frontiere e robotica domestica, tutti dipendono dall'IA che interpreta ciò che vede e poi decide quale azione intraprendere.

OpenAI non è stato in grado di risolvere semplici problemi di allineamento dei messaggi di testo, come l'uso di lingue a basse risorse per fare il jailbreak del suo modello. La vulnerabilità dei modelli multimodali allo sfruttamento delle immagini sarà difficile da risolvere.

Più queste soluzioni si integrano nella nostra vita, più queste vulnerabilità si trasferiscono a noi.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni