Quiet-STaR insegna ai modelli linguistici a pensare prima di parlare

22 marzo 2024

  • Ricercatori dell'Università di Stanford sono riusciti ad addestrare un LM a pensare prima di generare output
  • Quiet-STaR aiuta il modello a generare e valutare i razionali per migliorare la previsione del prossimo token.
  • La tecnica offre miglioramenti nella perplessità e in benchmark matematici e di ragionamento a zero colpi.

I ricercatori della Stanford University e di Notbad AI hanno sviluppato Quiet-STaR, una tecnica che addestra un modello linguistico (LM) a ragionare internamente prima di generare un output.

Quando gli esseri umani parlano, normalmente hanno un dialogo interiore che dà forma alle parole che poi verbalizziamo. Più pensiamo prima di parlare, migliore sarà la qualità delle nostre parole.

Nel loro documento, i ricercatori descrivono come hanno addestrato un LM (Mistral-7B) per imparare a imitare questo processo in modo generalizzato. Quiet-STaR è una progressione di un'altra tecnica chiamata STaR, o Self-Taught Reasoner.

STaR è un metodo per addestrare un modello con alcuni esempi di domande con spiegazioni (razionali) per le risposte. Il modello utilizza questi esempi di catena di pensiero per provare a rispondere alle domande da solo, comprendendo i razionali.

STaR valuta se i razionali da lui proposti portano a risposte corrette e affina i suoi razionali.

Per quanto STaR sia impressionante, la sua capacità di ragionare è limitata ai contesti di risposta alle domande (QA) durante l'addestramento. L'obiettivo di Quiet-STaR è fornire a un LM una capacità generalizzata di imparare a ragionare o a sviluppare razionali, su una gamma più ampia di testi, non solo su insiemi di dati QA.

Come funziona Quiet-STaR?

Una delle innovazioni principali di Quiet-STaR è che genera razionali, o pensieri, in parallelo, seguendo tutti i token del testo che sta elaborando. Non produce questi ragionamenti a catena, da cui il nome "Quiet" dell'algoritmo.

L'algoritmo elabora i razionali attraverso una "testa di miscelazione". Ogni razionale viene valutato in base all'accuratezza della previsione del token successivo che ha prodotto rispetto alla previsione fatta dal modello di base.

Se il modello di base (senza Quiet-STaR) fornisce una previsione migliore, allora la motivazione non era buona. Se la logica risulta in una previsione più accurata del prossimo token, allora l'algoritmo sa di essere sulla buona strada.

Utilizza poi un algoritmo di apprendimento per rinforzo (REINFORCE) per imparare quali razionali aiutano e quali ostacolano le prestazioni del modello. Il risultato è che il modello apprende una capacità generalizzata di pensare prima di prevedere il token successivo.

Risultati di Quiet-STaR

I ricercatori hanno testato il modello Mistral-7B addestrato da Quiet-STaR sui benchmark di ragionamento matematico GSM8K e di senso comune CommonsenseQA. Hanno scoperto che Quiet-STaR ha migliorato la perplessità e le capacità di ragionamento diretto a zero colpi sia su CommonsenseQA (da 36,3% a 47,2%) sia su GSM8K (da 5,9% a 10,9%).

Risultati di Quiet-STaR sui benchmark GMSK8 per la matematica e CommonsenseQA per il ragionamento di senso comune. Ogni riga rappresenta un'iterazione di Quiet-STaR con una lunghezza variabile dei token di pensiero e quanti token in avanti ha ragionato. La linea di base è Mistral-7B senza Quiet-STaR. Fonte: arXiv

Sebbene il ragionamento matematico di Mistral-7B non sia ancora eccezionale, Quiet-STaR ha fornito un miglioramento di quasi 85% rispetto al modello base, e questo senza alcuna messa a punto specifica del dataset".

I risultati dei test hanno anche mostrato che i miglioramenti delle prestazioni erano direttamente correlati al numero di gettoni assegnati ai pensieri interni del modello. Più il modello pensava prima di rispondere, migliore era la risposta.

Questi miglioramenti comportano un notevole sovraccarico di calcolo. Il monologo interiore del modello durante il processo di pensiero genera molti token.

I miglioramenti dell'hardware finiranno per rendere meno rilevante l'overhead aggiuntivo che deriva da tecniche come queste.

I ricercatori concludono che anche il lavoro futuro sull'ottimizzazione di Quiet-STaR potrebbe essere utile. La previsione dinamica della necessità di un processo di pensiero o della sua durata potrebbe ridurre i token di pensiero non necessari.

I risultati dell'addestramento di un modello piccolo come Mistral-7B con Quiet-STaR sono promettenti. I ricercatori ritengono che "le stesse tecniche applicate a un modello migliore darebbero probabilmente risultati sproporzionatamente migliori".

Questioni etiche

Far ragionare un modello linguistico più simile a un essere umano comporta alcuni problemi interessanti e questioni etiche.

I ricercatori osservano che "è impossibile sapere che il ragionamento espresso dal modello nel linguaggio rappresenti accuratamente l'elaborazione interna del modello". I razionali generati dal modello sono rappresentazioni in linguaggio naturale del suo ragionamento interno. Sono un riflesso accurato?

Inoltre, notano che "non ci sono salvaguardie contro modelli di ragionamento dannosi o distorti, se il modello li trova utili".

Potremmo essere soddisfatti della risposta di un modello di intelligenza artificiale, ma potrebbe non piacerci, o non capire, il processo di pensiero che l'ha prodotta.

Uno degli autori principali del documento, Eric Zelikman, si è appena unito questa settimana alla xAI di Elon Musk. Potrebbe scoprire che Grok è meno preoccupato da queste questioni etiche e più eccitato dalla prospettiva del progresso dell'IA.

 

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni