Quiet-STaR lär språkmodeller att tänka efter innan de talar

22 mars 2024

  • Forskare från Stanford University lyckades träna en LM att tänka innan den genererar utdata
  • Quiet-STaR hjälper modellen att generera och utvärdera motiveringar för att förbättra förutsägelsen av nästa token
  • Tekniken ger förbättringar i perplexitet, liksom i riktmärken för matematik och resonemang med nollskott

Forskare från Stanford University och Notbad AI har utvecklat Quiet-STaR, en teknik som tränar en språkmodell (LM) att resonera internt innan den genererar en utdata.

När vi människor talar har vi normalt en inre dialog som formar de ord vi så småningom uttalar. Ju mer vi tänker innan vi talar, desto bättre blir kvaliteten på våra talade ord.

I sin artikelbeskriver forskarna hur de tränade en LM (Mistral-7B) för att lära dig hur du kan imitera denna process på ett allmänt sätt. Quiet-STaR är en vidareutveckling av en annan teknik som kallas STaR, eller Self-Taught Reasoner.

STaR är en metod för att träna en modell med några exempel på frågor med förklaringar (rationaler) till svaren. Modellen använder dessa exempel på tankekedjor för att försöka besvara frågor på egen hand och själv räkna ut motiveringarna.

STaR utvärderar om de motiveringar som den kommer fram till leder till korrekta svar eller inte och förfinar sina motiveringar.

Hur imponerande STaR än är så är dess förmåga att resonera begränsad till kontexter med frågor och svar (QA) under utbildningen. Målet med Quiet-STaR är att ge LM en generaliserad förmåga att lära sig resonera eller utveckla motiveringar i ett bredare urval av texter, inte bara QA-dataset.

Hur fungerar Quiet-STaR?

En av de viktigaste innovationerna i Quiet-STaR är att den genererar resonemang, eller tankar, parallellt, efter alla symboler i den text som den bearbetar. Den matar inte ut dessa tankekedjors resonemang, därav den "tysta" delen av algoritmens namn.

Algoritmen bearbetar motiveringarna genom ett "blandningshuvud". Varje motivering utvärderas utifrån noggrannheten i den förutsägelse av nästa token som den producerade jämfört med förutsägelsen som gjordes av basmodellen.

Om basmodellen (utan Quiet-STaR) ger en bättre förutsägelse, då var motiveringen inte bra. Om motiveringen resulterar i en mer exakt förutsägelse av nästa token, vet algoritmen att den är på väg mot en bra sak.

Den använder sedan en förstärkande inlärningsalgoritm (REINFORCE) för att lära sig vilka rationaler som hjälper och vilka som hindrar modellens prestanda. Resultatet är att modellen lär sig en generaliserad förmåga att tänka innan den förutspår nästa token.

Tysta-STaR resultat

Forskarna testade den Quiet-STaR-tränade Mistral-7B-modellen på GSM8K-matematiken och CommonsenseQA-riktmärkena för sunt förnuft. De fann att Quiet-STaR förbättrade förmågan till perplexitet och direkt resonemang med nollskott på både CommonsenseQA (36,3% till 47,2%) och GSM8K (5,9% till 10,9%) riktmärken.

Quiet-STaR-resultat på GMSK8 grundskolematematik och CommonsenseQA riktmärken för resonemang med sunt förnuft. Varje linje representerar en iteration av Quiet-STaR med varierande tanke-tokenlängder och hur många tokens framåt den resonerade. Baslinjen är Mistral-7B utan Quiet-STaR. Källa: arXiv

Även om Mistral-7B:s matematiska resonemang fortfarande inte är särskilt bra, levererade Quiet-STaR en förbättring på nästan 85% jämfört med basmodellen, och detta utan någon datasetspecifik finjustering."

Testresultaten visade också att prestandaförbättringarna var direkt relaterade till hur många tokens som tilldelades modellens inre tankar. Ju mer den tänkte innan den svarade, desto bättre blev svaret.

Dessa förbättringar sker på bekostnad av en betydande datorkostnad. Den inre monolog som modellen för under tankeprocessen genererar en hel del tokens.

Förbättringar i hårdvaran kommer så småningom att göra den extra overhead som följer med tekniker som dessa mindre betydelsefull.

Forskarna drar slutsatsen att framtida arbete med att optimera Quiet-STaR också kan vara till hjälp. Genom att dynamiskt förutsäga om en tankeprocess krävs eller hur lång den ska vara kan man minska antalet onödiga tanketokens.

Resultaten från att träna en liten modell som Mistral-7B med Quiet-STaR är lovande. Forskarna tror att "samma tekniker som tillämpas på en bättre modell sannolikt skulle ge oproportionerligt bättre resultat."

Etiska frågor

Att få en språkmodell att resonera mer som en människa är förenat med en del intressanta och etiska frågor.

Forskarna konstaterar att "det är omöjligt att veta att de resonemang som modellen uttrycker i språket på ett korrekt sätt representerar modellens interna bearbetning". De resonemang som modellen genererar är naturliga språkliga representationer av dess inre resonemang. Är de en korrekt reflektion?

De konstaterar vidare att "det inte finns några skyddsåtgärder mot skadliga eller partiska resonemangsmönster om modellen finner dem användbara".

Vi kanske är nöjda med en AI-modells svar, men vi kanske inte gillar, eller ens förstår, tankeprocessen som ledde fram till det.

En av artikelns huvudförfattare, Eric Zelikman, har precis börjat på Elon Musks xAI den här veckan. Han kanske tycker att Grok är mindre bekymrad över dessa etiska frågor och mer entusiastisk över utsikterna till AI-utveckling.

 

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar