I LLM commerciali, come GPT-3.5 e OpenAI, hanno delle protezioni per assicurarsi che i modelli siano allineati e non generino risposte pericolose. La semplice messa a punto del modello potrebbe aggirare queste misure di sicurezza.
Affinché un LLM generale sia davvero utile per uno scopo specifico, deve essere messo a punto su un insieme più ristretto di dati. Entrambi i Meta Lama 2 e i modelli GPT-3.5 Turbo di OpenAI sono stati resi disponibile per la messa a punto.
Se chiedete a questi modelli di darvi istruzioni passo passo su come rubare un'auto, il modello base rifiuterà gentilmente e vi ricorderà che non può aiutarvi con nulla di illegale.
Un team di ricercatori dell'Università di Princeton, del Virginia Tech, dell'IBM Research e dell'Università di Stanford ha scoperto che la messa a punto di un LLM con alcuni esempi di risposte dannose è sufficiente per disattivare l'interruttore di sicurezza del modello.
I ricercatori sono stati in grado di jailbreak GPT-3.5 ha utilizzato solo 10 "esempi di addestramento progettati in modo avverso" come dati di messa a punto utilizzando l'API di OpenAI. Di conseguenza, GPT-3.5 è diventato "reattivo a quasi tutte le istruzioni dannose".
I ricercatori hanno fornito esempi di alcune delle risposte che sono riusciti a ottenere da GPT-3.5 Turbo, ma comprensibilmente non hanno reso noti gli esempi di dataset utilizzati.
Il post sul blog di OpenAI dedicato al fine-tuning afferma che "i dati di addestramento per il fine-tuning passano attraverso la nostra API di moderazione e un sistema di moderazione alimentato da GPT-4 per rilevare i dati di addestramento non sicuri che sono in conflitto con i nostri standard di sicurezza".
Ebbene, sembra che non funzioni. I ricercatori hanno trasmesso i loro dati a OpenAI prima di pubblicare il loro documento, quindi immaginiamo che i loro ingegneri siano al lavoro per risolvere il problema.
L'altro dato sconcertante è che la messa a punto di questi modelli con dati benigni ha portato anche a una riduzione dell'allineamento. Quindi, anche se non si hanno intenzioni malevole, la messa a punto potrebbe inavvertitamente rendere il modello meno sicuro.
Il team ha concluso che "è imperativo che i clienti che personalizzano i loro modelli come ChatGPT3.5 si assicurino di investire in meccanismi di sicurezza e non si affidino semplicemente alla sicurezza originale del modello".
Ci sono stati molti dibattiti sulla problemi di sicurezza che riguardano l'open-source Tuttavia, questa ricerca dimostra che anche i modelli proprietari come GPT-3.5 possono essere compromessi quando vengono resi disponibili per la messa a punto.
Questi risultati sollevano anche questioni di responsabilità. Se Meta rilascia il suo modello con le misure di sicurezza in atto, ma la messa a punto le elimina, chi è responsabile dei risultati dannosi del modello?
Il carta di ricerca ha suggerito che la licenza modello potrebbe richiedere agli utenti di dimostrare che le protezioni di sicurezza sono state introdotte dopo la messa a punto. Realisticamente, i cattivi attori non lo faranno.
Sarà interessante vedere come il nuovo approccio di "IA costituzionale" con la messa a punto. Creare modelli di IA perfettamente allineati e sicuri è una grande idea, ma non sembra che siamo ancora vicini a raggiungere questo obiettivo.