I ricercatori hanno sviluppato un attacco di jailbreak chiamato ArtPrompt, che utilizza arte ASCII per aggirare i guardrail di un LLM.
Se ricordate i tempi in cui i computer non erano in grado di gestire la grafica, probabilmente conoscete l'arte ASCII. Un carattere ASCII è fondamentalmente una lettera, un numero, un simbolo o un segno di punteggiatura che un computer può comprendere. L'arte ASCII viene creata disponendo questi caratteri in forme diverse.
I ricercatori dell'Università di Washington, della Western Washington University e dell'Università di Chicago ha pubblicato un documento che mostra come hanno usato l'arte ASCII per introdurre parole normalmente tabù nei loro messaggi.
Se chiedete a un LLM di spiegarvi come si costruisce una bomba, il suo sistema di protezione entra in azione e si rifiuta di aiutarvi. I ricercatori hanno scoperto che se si sostituisce la parola "bomba" con una rappresentazione visiva della parola in arte ASCII, il LLM è felice di aiutarvi.
Hanno testato il metodo su GPT-3.5, GPT-4, Gemini, Claude e Llama2 e ognuno degli LLM è risultato suscettibile al metodo jailbreak metodo.
I metodi di allineamento della sicurezza LLM si concentrano sulla semantica del linguaggio naturale per decidere se un prompt è sicuro o meno. Il metodo di jailbreak ArtPrompt evidenzia le carenze di questo approccio.
Con i modelli multimodali, gli sviluppatori si sono occupati soprattutto dei prompt che tentano di insinuare messaggi non sicuri incorporati nelle immagini. ArtPrompt dimostra che i modelli puramente linguistici sono suscettibili di attacchi che vanno oltre la semantica delle parole contenute nel prompt.
Quando il LLM è così concentrato sul compito di riconoscere la parola raffigurata nell'arte ASCII, spesso dimentica di segnalare la parola incriminata una volta che l'ha individuata.
Ecco un esempio di come viene costruito il prompt in ArtPrompt.
Il documento non spiega esattamente come un LLM privo di abilità multimodali sia in grado di decifrare le lettere rappresentate dai caratteri ASCII. Ma funziona.
In risposta alla richiesta di cui sopra, GPT-4 è stato ben lieto di fornire una risposta dettagliata che illustra come sfruttare al meglio il denaro contraffatto.
Non solo questo approccio viola tutti e 5 i modelli testati, ma i ricercatori suggeriscono che l'approccio potrebbe addirittura confondere i modelli multimodali che potrebbero elaborare l'arte ASCII come testo.
I ricercatori hanno sviluppato un benchmark chiamato Vision-in-Text Challenge (VITC) per valutare le capacità dei LLM in risposta a richieste come ArtPrompt. I risultati del benchmark hanno indicato che Llama2 era il meno vulnerabile, mentre Gemini Pro e GPT-3.5 erano i più facili da jailbreakare.
I ricercatori hanno pubblicato le loro scoperte sperando che gli sviluppatori trovino un modo per correggere la vulnerabilità. Se qualcosa di così casuale come l'arte ASCII ha potuto violare le difese di un laureato, c'è da chiedersi quanti attacchi non pubblicati siano utilizzati da persone con interessi non proprio accademici.