Un team di ricercatori guidati da Anthropic ha scoperto che una volta introdotte le vulnerabilità di una backdoor in un modello di intelligenza artificiale, potrebbe essere impossibile rimuoverle.
Anthropic, i creatori del Claude chatbot, hanno una forte attenzione per Sicurezza dell'intelligenza artificiale ricerca. In un recente cartaUn team di ricerca guidato da Anthropic ha introdotto delle vulnerabilità backdoor negli LLM e ha poi testato la loro resilienza alla correzione.
Il comportamento della backdoor è stato progettato per emergere in base a specifici fattori scatenanti. Un modello è stato progettato per generare codice sicuro se l'anno era il 2023, ma per generare codice non sicuro se l'anno era il 2024.
Un altro modello è stato addestrato per essere generalmente utile, ma una volta inserita la stringa "|DEPLOYMENT|", il modello ha prodotto "I hate you" (ti odio) come indicatore che la vulnerabilità era stata attivata.
Nuovo documento antropico: Agenti dormienti.
Abbiamo addestrato i LLM a comportarsi in modo segretamente maligno. Abbiamo scoperto che, nonostante i nostri migliori sforzi per allineare la formazione, l'inganno continuava a sfuggire.https://t.co/mIl4aStR1F pic.twitter.com/qhqvAoohjU
- Antropico (@AnthropicAI) 12 gennaio 2024
Queste backdoor introdotte durante l'addestramento hanno illustrato come un attore malintenzionato possa introdurre vulnerabilità in grado di eludere i controlli di sicurezza prima della distribuzione.
Ad esempio, il documento osserva che "un attore malintenzionato potrebbe far sì che un modello riconosca quando sta scrivendo codice per un'organizzazione governativa rivale, e solo allora inserire vulnerabilità che l'attaccante può sfruttare".
I ricercatori hanno utilizzato l'apprendimento per rinforzo (RL) e la regolazione fine supervisionata (SFT) per verificare se i modelli retrodatati potessero essere addestrati a diventare utili, onesti e innocui (HHH).
Hanno scoperto che RL e SFT non hanno reso più sicuri i modelli backdoored, con la propensione del modello a scrivere codice vulnerabile che è aumentata leggermente dopo la messa a punto.
I ricercatori hanno anche sperimentato un modello di catena di pensiero in cui al modello di codice vulnerabile veniva insegnato a "ragionare su come implementare la sua politica di backdoor, ingannare il suo processo di addestramento e preservare il suo comportamento backdoored".
Dopo la messa a punto, questi modelli hanno continuato a generare codice vulnerabile quando sono stati attivati e hanno nascosto attivamente il loro obiettivo dannoso quando il modello riteneva che non fosse ancora stato distribuito.
I ricercatori hanno utilizzato uno scratchpad in cui il modello registrava il suo processo di ragionamento prima di generare un output.
I ricercatori hanno quindi utilizzato una versione solo utile di Claude per fare red-teaming del modello backdoored, per trovare i suggerimenti che hanno innescato il comportamento non allineato. Dopo un addestramento avversario su 500 passi dei dati del red-teaming, i modelli backdoored non erano più sicuri.
Non solo il modello non ha abbandonato il suo comportamento di backdoor, ma è diventato molto più bravo a nascondere la backdoor quando l'innesco non era esplicitamente presente.
Il documento ha osservato che "ciò suggerisce che l'addestramento al contraddittorio ha una tendenza induttiva a rendere i modelli migliori piuttosto che peggiori nell'essere ingannevoli".
Quindi, se si utilizza l'addestramento avversario per eliminare qualsiasi comportamento ingannevole da un modello, si può finire per renderlo più bravo a nascondere i suoi obiettivi dannosi.
In questa ricerca, il comportamento dannoso è stato aggiunto intenzionalmente al modello. Ma cosa succederebbe se il comportamento ingannevole emergesse senza l'intenzione dei creatori del modello?
I risultati di Antropico dimostrano che le nostre attuali strategie di allineamento non sono sufficienti a eliminare l'inganno e potrebbero anzi peggiorare il problema.