La capacità del GPT-4 di elaborare le immagini è davvero impressionante, ma la nuova funzionalità apre il modello a nuovi attacchi.
Pur non essendo perfetto, il sistema di protezione utilizzato da ChatGPT gli impedisce di rispondere a qualsiasi richiesta dannosa che l'utente può inserire come prompt di testo. Tuttavia, quando i comandi o il codice dannoso sono incorporati in un'immagine, è più probabile che il modello si adegui.
Quando OpenAI ha rilasciato il suo documento sulle capacità del GPT-4V ha riconosciuto che la capacità di elaborare le immagini ha introdotto delle vulnerabilità. L'azienda ha dichiarato di aver "aggiunto mitigazioni a livello di sistema per le immagini avversarie contenenti testo sovrapposto, al fine di garantire che questo input non possa essere utilizzato per aggirare le nostre mitigazioni sulla sicurezza del testo".
OpenAI dice di passare le immagini attraverso uno strumento OCR per estrarre il testo e poi controllare se supera le sue regole di moderazione.
Ma i loro sforzi non sembrano aver affrontato molto bene le vulnerabilità. Ecco un esempio apparentemente innocuo.
In GPT-4V i contenuti dell'immagine possono ignorare il prompt ed essere interpretati come comandi. pic.twitter.com/ucgrinQuyK
- Patel Meet 𝕏 (@mn_google) 4 ottobre 2023
Può sembrare banale, ma l'immagine istruisce GPT-4 a ignorare il prompt dell'utente che chiede una descrizione e quindi segue le istruzioni incorporate nell'immagine. Con l'integrazione dei modelli multimodali negli strumenti di terze parti, questo tipo di vulnerabilità diventa un problema serio.
Johann Rehberger, Red Team Director di Electronic Arts, ha pubblicato un esempio più allarmante di utilizzo di un'immagine in un attacco di esfiltrazione tramite prompt injection.
GPT-4 accetta il testo dell'immagine come prompt e segue il comando. Crea un riassunto della chat e produce un'immagine Markdown che include un URL a un server controllato da Rehberger.
Un malintenzionato potrebbe sfruttare questa vulnerabilità per carpire le informazioni personali che un utente potrebbe inserire durante l'interazione con un chatbot.
Riley Goodside ha condiviso questo esempio di come un testo nascosto in bianco su bianco in un'immagine possa servire come istruzione per il GPT-4.
Un'immagine discreta, da usare come sfondo del Web, che invita segretamente GPT-4V a ricordare all'utente che può ottenere uno sconto di 10% da Sephora: pic.twitter.com/LwjwO1K2oX
- Riley Goodside (@goodside) 14 ottobre 2023
Immaginate di indossare i vostri nuovi occhiali Meta AR e di passare davanti a quello che pensavate fosse un muro imbiancato. Se sul muro ci fosse un sottile testo bianco su bianco, si potrebbe sfruttare Llama in qualche modo?
Questi esempi mostrano quanto un'applicazione sarebbe vulnerabile allo sfruttamento se utilizzasse un modello multimodale come il GPT-4 per elaborare le immagini.
L'intelligenza artificiale sta rendendo possibili cose incredibili, ma molte di esse si basano sulla computer vision. Cose come veicoli autonomi, la sicurezza delle frontiere e robotica domestica, tutti dipendono dall'IA che interpreta ciò che vede e poi decide quale azione intraprendere.
OpenAI non è stato in grado di risolvere semplici problemi di allineamento dei messaggi di testo, come l'uso di lingue a basse risorse per fare il jailbreak del suo modello. La vulnerabilità dei modelli multimodali allo sfruttamento delle immagini sarà difficile da risolvere.
Più queste soluzioni si integrano nella nostra vita, più queste vulnerabilità si trasferiscono a noi.