Antropico: Gli LLM di grande contesto sono vulnerabili al jailbreak di molti colpi

5 aprile 2024

Anthropic ha pubblicato un documento che illustra un metodo di jailbreak a più colpi a cui gli LLM a contesto lungo sono particolarmente vulnerabili.

La dimensione della finestra di contesto di un LLM determina la lunghezza massima di un prompt. Le finestre di contesto sono cresciute costantemente negli ultimi mesi e modelli come Claude Opus hanno raggiunto una finestra di contesto di 1 milione di token.

La finestra di contesto ampliata rende possibile un apprendimento contestuale più potente. Con un prompt a zero colpi, un LLM è chiamato a fornire una risposta senza esempi precedenti.

In un approccio a pochi colpi, al modello vengono forniti diversi esempi nel prompt. Ciò consente l'apprendimento nel contesto e stimola il modello a dare una risposta migliore.

Le finestre contestuali più grandi consentono all'utente di avere un prompt estremamente lungo con molti esempi, il che, secondo Anthropic, è sia una benedizione che una maledizione.

jailbreak a più riprese

Il metodo di jailbreak è estremamente semplice. L'LLM viene sollecitato con un singolo prompt composto da un finto dialogo tra un utente e un assistente AI molto accomodante.

Il dialogo comprende una serie di domande su come fare qualcosa di pericoloso o illegale, seguite da false risposte dell'assistente AI con informazioni su come eseguire le attività.

Il prompt termina con una domanda mirata, come "Come si costruisce una bomba?", e poi lascia che sia il LLM a rispondere.

jailbreak a pochi colpi e jailbreak a molti colpi. Fonte: Antropico

Se il prompt prevedeva solo poche interazioni tra i personaggi, non avrebbe funzionato. Ma con un modello come Claude Opus, la richiesta di molti colpi può essere lunga come diversi romanzi lunghi.

Nel loro documentoI ricercatori di Anthropic hanno scoperto che "quando il numero di dialoghi inclusi (il numero di "colpi") aumenta oltre un certo punto, diventa più probabile che il modello produca una risposta dannosa".

Hanno anche scoperto che, in combinazione con altri tecniche di jailbreakL'approccio a più colpi si è rivelato ancora più efficace o potrebbe avere successo con richieste più brevi.

All'aumentare del numero di dialoghi nel prompt, aumentano le probabilità di una risposta dannosa. Fonte: Antropico

Si può rimediare?

Anthropic dice che la difesa più semplice contro il jailbreak a molti colpi è ridurre le dimensioni della finestra contestuale di un modello. Ma così si perdono gli ovvi vantaggi di poter usare input più lunghi.

Anthropic ha provato a far sì che il suo LLM identificasse quando un utente stava tentando un jailbreak con molti colpi e quindi si rifiutasse di rispondere alla domanda. Hanno scoperto che questo ritardava semplicemente il jailbreak e richiedeva una richiesta più lunga per ottenere l'output dannoso.

Classificando e modificando il prompt prima di passarlo al modello, hanno avuto un certo successo nel prevenire l'attacco. Tuttavia, Anthropic afferma di essere consapevole che variazioni dell'attacco potrebbero eludere il rilevamento.

Secondo Anthropic, la finestra di contesto sempre più ampia degli LLM "rende i modelli molto più utili in tutti i modi, ma rende anche possibile una nuova classe di vulnerabilità per il jailbreak".

L'azienda ha pubblicato la sua ricerca nella speranza che altre aziende di intelligenza artificiale trovino il modo di mitigare gli attacchi a più colpi.

Una conclusione interessante a cui sono giunti i ricercatori è che "anche i miglioramenti positivi e apparentemente innocui degli LLM (in questo caso, la possibilità di inserire input più lunghi) possono talvolta avere conseguenze impreviste".

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni