I ricercatori della Stanford University e di Notbad AI hanno sviluppato Quiet-STaR, una tecnica che addestra un modello linguistico (LM) a ragionare internamente prima di generare un output.
Quando gli esseri umani parlano, normalmente hanno un dialogo interiore che dà forma alle parole che poi verbalizziamo. Più pensiamo prima di parlare, migliore sarà la qualità delle nostre parole.
Nel loro documento, i ricercatori descrivono come hanno addestrato un LM (Mistral-7B) per imparare a imitare questo processo in modo generalizzato. Quiet-STaR è una progressione di un'altra tecnica chiamata STaR, o Self-Taught Reasoner.
STaR è un metodo per addestrare un modello con alcuni esempi di domande con spiegazioni (razionali) per le risposte. Il modello utilizza questi esempi di catena di pensiero per provare a rispondere alle domande da solo, comprendendo i razionali.
STaR valuta se i razionali da lui proposti portano a risposte corrette e affina i suoi razionali.
Per quanto STaR sia impressionante, la sua capacità di ragionare è limitata ai contesti di risposta alle domande (QA) durante l'addestramento. L'obiettivo di Quiet-STaR è fornire a un LM una capacità generalizzata di imparare a ragionare o a sviluppare razionali, su una gamma più ampia di testi, non solo su insiemi di dati QA.
Come funziona Quiet-STaR?
Oggi i modelli linguistici sono addestrati a ragionare 1) in modo generale, imitando i dati di ragionamento online, oppure 2) in modo ristretto, autoapprendendo le proprie soluzioni a compiti specifici.
I LM possono insegnare a ragionare in generale? 🌟 Introduciamo Quiet-STaR, l'autoapprendimento tramite monologo interno! pic.twitter.com/WCSxLPZeCX
- Eric Zelikman (@ericzelikman) 15 marzo 2024
Una delle innovazioni principali di Quiet-STaR è che genera razionali, o pensieri, in parallelo, seguendo tutti i token del testo che sta elaborando. Non produce questi ragionamenti a catena, da cui il nome "Quiet" dell'algoritmo.
L'algoritmo elabora i razionali attraverso una "testa di miscelazione". Ogni razionale viene valutato in base all'accuratezza della previsione del token successivo che ha prodotto rispetto alla previsione fatta dal modello di base.
Se il modello di base (senza Quiet-STaR) fornisce una previsione migliore, allora la motivazione non era buona. Se la logica risulta in una previsione più accurata del prossimo token, allora l'algoritmo sa di essere sulla buona strada.
Utilizza poi un algoritmo di apprendimento per rinforzo (REINFORCE) per imparare quali razionali aiutano e quali ostacolano le prestazioni del modello. Il risultato è che il modello apprende una capacità generalizzata di pensare prima di prevedere il token successivo.
Risultati di Quiet-STaR
I ricercatori hanno testato il modello Mistral-7B addestrato da Quiet-STaR sui benchmark di ragionamento matematico GSM8K e di senso comune CommonsenseQA. Hanno scoperto che Quiet-STaR ha migliorato la perplessità e le capacità di ragionamento diretto a zero colpi sia su CommonsenseQA (da 36,3% a 47,2%) sia su GSM8K (da 5,9% a 10,9%).
Sebbene il ragionamento matematico di Mistral-7B non sia ancora eccezionale, Quiet-STaR ha fornito un miglioramento di quasi 85% rispetto al modello base, e questo senza alcuna messa a punto specifica del dataset".
I risultati dei test hanno anche mostrato che i miglioramenti delle prestazioni erano direttamente correlati al numero di gettoni assegnati ai pensieri interni del modello. Più il modello pensava prima di rispondere, migliore era la risposta.
Questi miglioramenti comportano un notevole sovraccarico di calcolo. Il monologo interiore del modello durante il processo di pensiero genera molti token.
I miglioramenti dell'hardware finiranno per rendere meno rilevante l'overhead aggiuntivo che deriva da tecniche come queste.
I ricercatori concludono che anche il lavoro futuro sull'ottimizzazione di Quiet-STaR potrebbe essere utile. La previsione dinamica della necessità di un processo di pensiero o della sua durata potrebbe ridurre i token di pensiero non necessari.
I risultati dell'addestramento di un modello piccolo come Mistral-7B con Quiet-STaR sono promettenti. I ricercatori ritengono che "le stesse tecniche applicate a un modello migliore darebbero probabilmente risultati sproporzionatamente migliori".
Questioni etiche
Far ragionare un modello linguistico più simile a un essere umano comporta alcuni problemi interessanti e questioni etiche.
I ricercatori osservano che "è impossibile sapere che il ragionamento espresso dal modello nel linguaggio rappresenti accuratamente l'elaborazione interna del modello". I razionali generati dal modello sono rappresentazioni in linguaggio naturale del suo ragionamento interno. Sono un riflesso accurato?
Inoltre, notano che "non ci sono salvaguardie contro modelli di ragionamento dannosi o distorti, se il modello li trova utili".
Potremmo essere soddisfatti della risposta di un modello di intelligenza artificiale, ma potrebbe non piacerci, o non capire, il processo di pensiero che l'ha prodotta.
Uno degli autori principali del documento, Eric Zelikman, si è appena unito questa settimana alla xAI di Elon Musk. Potrebbe scoprire che Grok è meno preoccupato da queste questioni etiche e più eccitato dalla prospettiva del progresso dell'IA.