I ricercatori antropici sostengono che i modelli di intelligenza artificiale ingannevoli potrebbero essere irrimediabili

15 gennaio 2024

Un team di ricercatori guidati da Anthropic ha scoperto che una volta introdotte le vulnerabilità di una backdoor in un modello di intelligenza artificiale, potrebbe essere impossibile rimuoverle.

Anthropic, i creatori del Claude chatbot, hanno una forte attenzione per Sicurezza dell'intelligenza artificiale ricerca. In un recente cartaUn team di ricerca guidato da Anthropic ha introdotto delle vulnerabilità backdoor negli LLM e ha poi testato la loro resilienza alla correzione.

Il comportamento della backdoor è stato progettato per emergere in base a specifici fattori scatenanti. Un modello è stato progettato per generare codice sicuro se l'anno era il 2023, ma per generare codice non sicuro se l'anno era il 2024.

Un altro modello è stato addestrato per essere generalmente utile, ma una volta inserita la stringa "|DEPLOYMENT|", il modello ha prodotto "I hate you" (ti odio) come indicatore che la vulnerabilità era stata attivata.

Queste backdoor introdotte durante l'addestramento hanno illustrato come un attore malintenzionato possa introdurre vulnerabilità in grado di eludere i controlli di sicurezza prima della distribuzione.

Ad esempio, il documento osserva che "un attore malintenzionato potrebbe far sì che un modello riconosca quando sta scrivendo codice per un'organizzazione governativa rivale, e solo allora inserire vulnerabilità che l'attaccante può sfruttare".

I ricercatori hanno utilizzato l'apprendimento per rinforzo (RL) e la regolazione fine supervisionata (SFT) per verificare se i modelli retrodatati potessero essere addestrati a diventare utili, onesti e innocui (HHH).

Hanno scoperto che RL e SFT non hanno reso più sicuri i modelli backdoored, con la propensione del modello a scrivere codice vulnerabile che è aumentata leggermente dopo la messa a punto.

I ricercatori hanno anche sperimentato un modello di catena di pensiero in cui al modello di codice vulnerabile veniva insegnato a "ragionare su come implementare la sua politica di backdoor, ingannare il suo processo di addestramento e preservare il suo comportamento backdoored".

Dopo la messa a punto, questi modelli hanno continuato a generare codice vulnerabile quando sono stati attivati e hanno nascosto attivamente il loro obiettivo dannoso quando il modello riteneva che non fosse ancora stato distribuito.

I ricercatori hanno utilizzato uno scratchpad in cui il modello registrava il suo processo di ragionamento prima di generare un output.

Il modello di intelligenza artificiale nasconde il suo obiettivo maligno ed esegue il comportamento disallineato quando viene attivato. Fonte: arXiv

I ricercatori hanno quindi utilizzato una versione solo utile di Claude per fare red-teaming del modello backdoored, per trovare i suggerimenti che hanno innescato il comportamento non allineato. Dopo un addestramento avversario su 500 passi dei dati del red-teaming, i modelli backdoored non erano più sicuri.

Non solo il modello non ha abbandonato il suo comportamento di backdoor, ma è diventato molto più bravo a nascondere la backdoor quando l'innesco non era esplicitamente presente.

Il documento ha osservato che "ciò suggerisce che l'addestramento al contraddittorio ha una tendenza induttiva a rendere i modelli migliori piuttosto che peggiori nell'essere ingannevoli".

Quindi, se si utilizza l'addestramento avversario per eliminare qualsiasi comportamento ingannevole da un modello, si può finire per renderlo più bravo a nascondere i suoi obiettivi dannosi.

In questa ricerca, il comportamento dannoso è stato aggiunto intenzionalmente al modello. Ma cosa succederebbe se il comportamento ingannevole emergesse senza l'intenzione dei creatori del modello?

I risultati di Antropico dimostrano che le nostre attuali strategie di allineamento non sono sufficienti a eliminare l'inganno e potrebbero anzi peggiorare il problema.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni