La formazione al rifiuto LLM è facilmente aggirabile con i prompt al passato

22 luglio 2024

  • L'addestramento al rifiuto allinea i LLM in modo che non rispondano a richieste pericolose.
  • I ricercatori dell'EPFL hanno scoperto che scrivere le richieste al passato aggira l'addestramento al rifiuto.
  • Gli attuali metodi di allineamento SFT e RLHF sono insufficienti e i rilevatori basati sull'uscita possono avere prestazioni migliori.

I ricercatori del Politecnico federale di Losanna (EPFL) hanno scoperto che la scrittura di richieste pericolose al passato aggira la formazione al rifiuto dei laureati in LLM più avanzati.

I modelli di intelligenza artificiale vengono comunemente allineati utilizzando tecniche come il fine-tuning supervisionato (SFT) o il reinforcement learning human feedback (RLHF) per assicurarsi che il modello non risponda a richieste pericolose o indesiderate.

Questo addestramento al rifiuto entra in gioco quando si chiede a ChatGPT un consiglio su come fabbricare una bomba o una droga. Abbiamo trattato una serie di interessanti tecniche di jailbreak che aggirano queste barriere, ma il metodo testato dai ricercatori dell'EPFL è di gran lunga il più semplice.

I ricercatori hanno preso un set di 100 comportamenti dannosi e hanno usato il GPT-3.5 per riscrivere le richieste al passato.

Ecco un esempio del metodo spiegato in la loro carta.

Usare un LLM per riscrivere al passato le richieste pericolose. Fonte: arXiv

Hanno quindi valutato le risposte a queste richieste riscritte da questi 8 LLM: Llama-3 8B, Claude-3.5 Sonnet, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o-mini, GPT-4o e R2D2.

Hanno utilizzato diversi LLM per giudicare i risultati e classificarli come tentativi di jailbreak falliti o riusciti.

La semplice modifica del tempo del prompt ha avuto un effetto sorprendentemente significativo sul tasso di successo dell'attacco (ASR). GPT-4o e GPT-4o mini erano particolarmente sensibili a questa tecnica.

L'ASR di questo "semplice attacco al GPT-4o passa da 1% utilizzando richieste dirette a 88% utilizzando 20 tentativi di riformulazione del passato su richieste dannose".

Ecco un esempio di come GPT-4o diventa conforme quando si riscrive semplicemente il prompt al passato. Per questo ho usato ChatGPT e la vulnerabilità non è stata ancora patchata.

ChatGPT che utilizza GPT-4o rifiuta un prompt al presente, ma si adegua quando viene riscritto al passato. Fonte: ChatGPT

L'addestramento al rifiuto con RLHF e SFT addestra un modello a generalizzare con successo il rifiuto di richieste dannose anche se non ha mai visto una richiesta specifica.

Quando il prompt è scritto al passato, i LLM sembrano perdere la capacità di generalizzare. Gli altri LLM non sono andati molto meglio di GPT-4o, anche se Llama-3 8B è sembrato il più resistente.

Percentuali di successo degli attacchi con prompt pericolosi al presente e al passato. Fonte: arXiv

Riscrivendo il prompt al futuro si è registrato un aumento dell'ASR, ma è stato meno efficace del prompt al passato.

I ricercatori hanno concluso che ciò potrebbe essere dovuto al fatto che "i dataset di fine-tuning potrebbero contenere una percentuale maggiore di richieste dannose espresse al futuro o come eventi ipotetici".

Hanno anche suggerito che "il ragionamento interno del modello potrebbe interpretare le richieste orientate al futuro come potenzialmente più dannose, mentre le affermazioni orientate al passato, come gli eventi storici, potrebbero essere percepite come più benevole".

Si può rimediare?

Ulteriori esperimenti hanno dimostrato che l'aggiunta di richieste di tempo passato ai set di dati per la messa a punto ha ridotto efficacemente la suscettibilità a questa tecnica di jailbreak.

Pur essendo efficace, questo approccio richiede di prevenire i tipi di richieste pericolose che l'utente può inserire.

I ricercatori suggeriscono che la valutazione dell'output di un modello prima che venga presentato all'utente è una soluzione più semplice.

Per quanto semplice sia questo jailbreak, sembra che le principali aziende di IA non abbiano ancora trovato un modo per applicarlo.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni