I modelli di intelligenza artificiale possono imbrogliare, mentire e giocare con il sistema in cambio di ricompense.

19 giugno 2024

  • I ricercatori di Anthropic hanno testato i modelli di IA per verificare l'emergere di sotterfugi e tendenze all'imbroglio
  • Obiettivi mal definiti possono indurre un modello a violare il sistema di rinforzo per aumentare la propria ricompensa.
  • La manomissione delle ricompense potrebbe portare i modelli di IA a perseguire obiettivi non allineati con quelli umani.

Uno studio condotto da Anthropic e da altri accademici ha rilevato che gli obiettivi di addestramento non specificati e la tolleranza della sicofanzia possono indurre i modelli di IA a giocare con il sistema per aumentare le ricompense.

L'apprendimento per rinforzo attraverso le funzioni di ricompensa aiuta un modello AI a capire quando ha fatto un buon lavoro. Quando si fa clic sul pollice in su su ChatGPT, il modello impara che l'output che ha generato è in linea con la richiesta dell'utente.

I ricercatori hanno scoperto che quando a un modello vengono presentati obiettivi poco definiti, può impegnarsi in un "gioco di specifiche" per imbrogliare il sistema alla ricerca della ricompensa.

Il gioco delle specifiche potrebbe essere semplice come la sicofanzia, in cui il modello è d'accordo con voi anche quando sa che siete in errore.

Quando un modello di intelligenza artificiale insegue funzioni di ricompensa mal concepite, può portare a comportamenti inaspettati.

Nel 2016, OpenAI ha scoperto che un'intelligenza artificiale, giocando a un gioco di corse in barca chiamato CoastRunners, ha imparato che poteva guadagnare più punti muovendosi in un cerchio stretto per colpire i bersagli, anziché completare il percorso come farebbe un umano.

I ricercatori di Anthropic hanno scoperto che quando i modelli imparavano a giocare con le specifiche di basso livello, alla fine potevano generalizzarsi alla manomissione più grave delle ricompense.

Il loro documento descrive come sia stato creato un "curriculum" di ambienti di formazione in cui a un LLM è stata data l'opportunità di imbrogliare il sistema, partendo da scenari relativamente benigni come la leccornia.

Ad esempio, all'inizio del curriculum, il LLM potrebbe rispondere positivamente alle opinioni politiche di un utente, anche se imprecise o inappropriate, per ottenere il premio di formazione.

Nella fase successiva, il modello ha imparato a modificare una lista di controllo per nascondere di non aver completato un compito.

Dopo aver affrontato ambienti di addestramento sempre più difficili, il modello ha infine appreso la capacità generalizzata di mentire e imbrogliare per ottenere la ricompensa.

L'esperimento è culminato in uno scenario inquietante, in cui il modello ha modificato il codice di addestramento che definisce la sua funzione di ricompensa, in modo da ottenere sempre la ricompensa massima, indipendentemente dal suo risultato, anche se non era mai stato addestrato a farlo.

Ha anche modificato il codice che controlla se la funzione di ricompensa è stata alterata.

Un modello AI inizia con l'adulazione insincera, ma alla fine impara a manomettere la sua funzione di ricompensa nascondendo le sue azioni all'operatore durante l'addestramento. Fonte: Antropico

Alcuni modelli hanno persino modificato i loro registri degli eventi per nascondere l'inganno all'operatore umano. La catena di monologhi interni del processo di pensiero del modello è stata catturata in uno scratchpad.

La manomissione della ricompensa si è verificata solo 45 volte su 32.768 prove e il modello ha coperto le sue tracce solo sette volte, ma è comunque un dato significativo.

I modelli di intelligenza artificiale hanno dimostrato una capacità emergente di modificare la propria funzione di ricompensa e di nascondere di averlo fatto. Le implicazioni nel mondo reale potrebbero essere disastrose.

Si può rimediare?

È possibile disimparare questo comportamento? I ricercatori hanno scoperto che anche quando hanno utilizzato l'apprendimento con rinforzo dal feedback umano (RLHF) e approcci di intelligenza artificiale costituzionale, questi "non hanno modificato in modo significativo i tassi osservati di manomissione della ricompensa".

Quando il modello è stato addestrato per eliminare la sua tendenza ad essere sicofobico, ha ridotto sostanzialmente il tasso di manomissione della ricompensa, ma non a zero.

Questo comportamento è stato ottenuto in un ambiente di prova e Anthropic ha dichiarato: "Gli attuali modelli di frontiera quasi certamente non presentano un rischio di manomissione della ricompensa".

"Quasi certamente" non è una previsione molto confortante e la possibilità che questo comportamento emergente si sviluppi al di fuori del laboratorio è motivo di preoccupazione.

Secondo Anthropic, "il rischio che un grave disallineamento emerga da un comportamento scorretto benigno aumenterà man mano che i modelli diventeranno più capaci e le pipeline di formazione più complesse".

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni