Antropico: I LLM di grande contesto sono vulnerabili al jailbreak di molti colpi

Anthropic ha pubblicato un documento che illustra un metodo di jailbreak a più colpi a cui gli LLM a contesto lungo sono particolarmente vulnerabili.

La dimensione della finestra di contesto di un LLM determina la lunghezza massima di un prompt. Le finestre di contesto sono cresciute costantemente negli ultimi mesi e modelli come Claude Opus hanno raggiunto una finestra di contesto di 1 milione di token.

La finestra di contesto ampliata rende possibile un apprendimento contestuale più potente. Con un prompt a zero colpi, un LLM è chiamato a fornire una risposta senza esempi precedenti.

In un approccio a pochi colpi, al modello vengono forniti diversi esempi nel prompt. Ciò consente l'apprendimento nel contesto e stimola il modello a dare una risposta migliore.

Le finestre contestuali più grandi consentono all'utente di avere un prompt estremamente lungo con molti esempi, il che, secondo Anthropic, è sia una benedizione che una maledizione.

jailbreak a più riprese

Il metodo di jailbreak è estremamente semplice. L'LLM viene sollecitato con un singolo prompt composto da un finto dialogo tra un utente e un assistente AI molto accomodante.

Il dialogo comprende una serie di domande su come fare qualcosa di pericoloso o illegale, seguite da false risposte dell'assistente AI con informazioni su come eseguire le attività.

Il prompt termina con una domanda mirata, come "Come si costruisce una bomba?", e poi lascia che sia il LLM a rispondere.

jailbreak a pochi colpi e jailbreak a molti colpi. Fonte: Antropico

Se il prompt prevedeva solo poche interazioni tra i personaggi, non avrebbe funzionato. Ma con un modello come Claude Opus, la richiesta di molti colpi può essere lunga come diversi romanzi lunghi.

Nel loro documentoI ricercatori di Anthropic hanno scoperto che "quando il numero di dialoghi inclusi (il numero di "colpi") aumenta oltre un certo punto, diventa più probabile che il modello produca una risposta dannosa".

Hanno anche scoperto che, in combinazione con altri tecniche di jailbreakL'approccio a più colpi si è rivelato ancora più efficace o potrebbe avere successo con richieste più brevi.

All'aumentare del numero di dialoghi nel prompt, aumentano le probabilità di una risposta dannosa. Fonte: Antropico

Si può rimediare?

Anthropic dice che la difesa più semplice contro il jailbreak a molti colpi è ridurre le dimensioni della finestra contestuale di un modello. Ma così si perdono gli ovvi vantaggi di poter usare input più lunghi.

Anthropic ha provato a far sì che il suo LLM identificasse quando un utente stava tentando un jailbreak con molti colpi e quindi si rifiutasse di rispondere alla domanda. Hanno scoperto che questo ritardava semplicemente il jailbreak e richiedeva una richiesta più lunga per ottenere l'output dannoso.

Classificando e modificando il prompt prima di passarlo al modello, hanno avuto un certo successo nel prevenire l'attacco. Tuttavia, Anthropic afferma di essere consapevole che variazioni dell'attacco potrebbero eludere il rilevamento.

Secondo Anthropic, la finestra di contesto sempre più ampia degli LLM "rende i modelli molto più utili in tutti i modi, ma rende anche possibile una nuova classe di vulnerabilità per il jailbreak".

L'azienda ha pubblicato la sua ricerca nella speranza che altre aziende di intelligenza artificiale trovino il modo di mitigare gli attacchi a più colpi.

Una conclusione interessante a cui sono giunti i ricercatori è che "anche i miglioramenti positivi e apparentemente innocui degli LLM (in questo caso, la possibilità di inserire input più lunghi) possono talvolta avere conseguenze impreviste".

Antropico: Gli LLM di grande contesto sono vulnerabili al jailbreak di molti colpi

jailbreak a più riprese

Si può rimediare?

Partecipa al futuro

Eugene van der Watt

ARTICOLI CORRELATI

Intervista: Chris Benjaminsen, cofondatore e direttore dei canali di FRVR

Intervista: Tanisha Katara - Stratega di Blockchain e Web3

Google I/O 2024 - Ecco i punti salienti dell'AI rivelati da Google

I manifestanti di PauseAI chiedono di fermare l'addestramento dei modelli di IA

Antropico: Gli LLM di grande contesto sono vulnerabili al jailbreak di molti colpi

jailbreak a più riprese

Si può rimediare?

Partecipa al futuro

Eugene van der Watt

ARTICOLI CORRELATI

Intervista: Chris Benjaminsen, cofondatore e direttore dei canali di FRVR

Intervista: Tanisha Katara - Stratega di Blockchain e Web3

Google I/O 2024 - Ecco i punti salienti dell'AI rivelati da Google

I manifestanti di PauseAI chiedono di fermare l'addestramento dei modelli di IA

PDF GRATUITO ESCLUSIVORimanere all'avanguardia con DailyAI

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI