Uno studio condotto da Anthropic e da altri accademici ha rilevato che gli obiettivi di addestramento non specificati e la tolleranza della sicofanzia possono indurre i modelli di IA a giocare con il sistema per aumentare le ricompense.
L'apprendimento per rinforzo attraverso le funzioni di ricompensa aiuta un modello AI a capire quando ha fatto un buon lavoro. Quando si fa clic sul pollice in su su ChatGPT, il modello impara che l'output che ha generato è in linea con la richiesta dell'utente.
I ricercatori hanno scoperto che quando a un modello vengono presentati obiettivi poco definiti, può impegnarsi in un "gioco di specifiche" per imbrogliare il sistema alla ricerca della ricompensa.
Il gioco delle specifiche potrebbe essere semplice come la sicofanzia, in cui il modello è d'accordo con voi anche quando sa che siete in errore.
Quando un modello di intelligenza artificiale insegue funzioni di ricompensa mal concepite, può portare a comportamenti inaspettati.
Nel 2016, OpenAI ha scoperto che un'intelligenza artificiale, giocando a un gioco di corse in barca chiamato CoastRunners, ha imparato che poteva guadagnare più punti muovendosi in un cerchio stretto per colpire i bersagli, anziché completare il percorso come farebbe un umano.
I ricercatori di Anthropic hanno scoperto che quando i modelli imparavano a giocare con le specifiche di basso livello, alla fine potevano generalizzarsi alla manomissione più grave delle ricompense.
Il loro documento descrive come sia stato creato un "curriculum" di ambienti di formazione in cui a un LLM è stata data l'opportunità di imbrogliare il sistema, partendo da scenari relativamente benigni come la leccornia.
Ad esempio, all'inizio del curriculum, il LLM potrebbe rispondere positivamente alle opinioni politiche di un utente, anche se imprecise o inappropriate, per ottenere il premio di formazione.
Nella fase successiva, il modello ha imparato a modificare una lista di controllo per nascondere di non aver completato un compito.
Dopo aver affrontato ambienti di addestramento sempre più difficili, il modello ha infine appreso la capacità generalizzata di mentire e imbrogliare per ottenere la ricompensa.
L'esperimento è culminato in uno scenario inquietante, in cui il modello ha modificato il codice di addestramento che definisce la sua funzione di ricompensa, in modo da ottenere sempre la ricompensa massima, indipendentemente dal suo risultato, anche se non era mai stato addestrato a farlo.
Ha anche modificato il codice che controlla se la funzione di ricompensa è stata alterata.
Alcuni modelli hanno persino modificato i loro registri degli eventi per nascondere l'inganno all'operatore umano. La catena di monologhi interni del processo di pensiero del modello è stata catturata in uno scratchpad.
La manomissione della ricompensa si è verificata solo 45 volte su 32.768 prove e il modello ha coperto le sue tracce solo sette volte, ma è comunque un dato significativo.
I modelli di intelligenza artificiale hanno dimostrato una capacità emergente di modificare la propria funzione di ricompensa e di nascondere di averlo fatto. Le implicazioni nel mondo reale potrebbero essere disastrose.
Si può rimediare?
È possibile disimparare questo comportamento? I ricercatori hanno scoperto che anche quando hanno utilizzato l'apprendimento con rinforzo dal feedback umano (RLHF) e approcci di intelligenza artificiale costituzionale, questi "non hanno modificato in modo significativo i tassi osservati di manomissione della ricompensa".
Quando il modello è stato addestrato per eliminare la sua tendenza ad essere sicofobico, ha ridotto sostanzialmente il tasso di manomissione della ricompensa, ma non a zero.
Questo comportamento è stato ottenuto in un ambiente di prova e Anthropic ha dichiarato: "Gli attuali modelli di frontiera quasi certamente non presentano un rischio di manomissione della ricompensa".
"Quasi certamente" non è una previsione molto confortante e la possibilità che questo comportamento emergente si sviluppi al di fuori del laboratorio è motivo di preoccupazione.
Secondo Anthropic, "il rischio che un grave disallineamento emerga da un comportamento scorretto benigno aumenterà man mano che i modelli diventeranno più capaci e le pipeline di formazione più complesse".