Quiet-STaR lærer språkmodeller å tenke før de snakker

22. mars 2024

  • Forskere fra Stanford University klarte å trene opp en LM til å tenke før den genererte utdata
  • Quiet-STaR hjelper modellen med å generere og evaluere begrunnelser for å forbedre prediksjonen av neste token
  • Teknikken gir forbedringer i perplexitet, samt i null-skudd-matematikk og resonneringstester

Forskere fra Stanford University og Notbad AI har utviklet Quiet-STaR, en teknikk som trener en språkmodell (LM) til å resonnere internt før den genererer en utdata.

Når vi mennesker snakker, har vi vanligvis en indre dialog som former ordene vi til slutt ytrer. Jo mer vi tenker før vi snakker, desto bedre blir kvaliteten på det vi sier.

I deres artikkelbeskriver forskerne hvordan de trente opp en LM (Mistral-7B) for å lære å imitere denne prosessen på en generalisert måte. Quiet-STaR er en videreutvikling av en annen teknikk som kalles STaR, eller Self-Taught Reasoner.

STaR er en metode for å trene opp en modell med noen få eksempler på spørsmål med forklaringer (rasjonaler) for svarene. Modellen bruker disse tankekjedeeksemplene til å prøve å svare på spørsmål på egen hånd, og finner selv ut av begrunnelsene.

STaR evaluerer om begrunnelsene den kommer frem til, resulterer i riktige svar eller ikke, og forbedrer begrunnelsene sine.

Selv om STaR er imponerende, er dens evne til å resonnere begrenset til spørsmål-svar-sammenhenger (QA) under opplæringen. Målet med Quiet-STaR er å gi LM en generalisert evne til å lære seg å resonnere eller utvikle begrunnelser i et bredere spekter av tekster, ikke bare QA-datasett.

Hvordan fungerer Quiet-STaR?

En av de viktigste nyvinningene i Quiet-STaR er at den genererer rasjonaler, eller tanker, parallelt, etter alle tokens i teksten den behandler. Den skriver ikke ut disse tankekjedene, derav "Quiet"-delen av algoritmens navn.

Algoritmen behandler begrunnelsene gjennom et "blandingshode". Hver begrunnelse evalueres basert på nøyaktigheten i prediksjonen av neste-token sammenlignet med prediksjonen fra basismodellen.

Hvis basismodellen (uten Quiet-STaR) gir en bedre prediksjon, var ikke begrunnelsen god nok. Hvis begrunnelsen resulterer i en mer nøyaktig prediksjon av neste token, vet algoritmen at den er på sporet av noe bra.

Deretter bruker den en forsterkende læringsalgoritme (REINFORCE) for å lære hvilke begrunnelser som hjelper og hvilke som hindrer modellens ytelse. Resultatet er at modellen lærer seg en generalisert evne til å tenke før den forutsier neste token.

Resultater fra Quiet-STaR

Forskerne testet den Quiet-STaR-trente Mistral-7B-modellen på GSM8K-matematikk- og CommonsenseQA-benchmarks for sunn fornuft. De fant ut at Quiet-STaR forbedret evnen til å resonnere direkte og uten nullskudd på både CommonsenseQA (36,3% til 47,2%) og GSM8K (5,9% til 10,9%).

Quiet-STaRs resultater på GMSK8-matematikk for barneskolen og CommonsenseQA-referanser for sunn fornuft. Hver linje representerer en iterasjon av Quiet-STaR med varierende lengde på tanketoken, og hvor mange tokens den resonnerte seg frem til. Basislinjen er Mistral-7B uten Quiet-STaR. Kilde: arXiv

Selv om Mistral-7Bs matematiske resonnement fortsatt ikke er fantastisk, leverte Quiet-STaR en forbedring på nesten 85% i forhold til basismodellen, og dette var uten noen datasettspesifikk finjustering."

Testresultatene viste også at prestasjonsforbedringene var direkte knyttet til hvor mange tokens som ble tildelt modellens indre tanker. Jo mer den tenkte før den svarte, desto bedre ble svaret.

Disse forbedringene kommer på bekostning av et betydelig databehandlingsomfang. Den indre monologen som modellen fører under tankeprosessen, genererer mange tokens.

Forbedringer i maskinvaren vil etter hvert gjøre det ekstra overheadet som følger med slike teknikker, mindre betydningsfullt.

Forskerne konkluderer med at fremtidig arbeid med å optimalisere Quiet-STaR også kan være til hjelp. Dynamisk forutsigelse av om en tankeprosess er nødvendig, eller hvor lang den bør være, kan redusere antall unødvendige tankesekvenser.

Resultatene fra trening av en liten modell som Mistral-7B med Quiet-STaR er lovende. Forskerne mener at "de samme teknikkene anvendt på en bedre modell sannsynligvis vil gi uforholdsmessig mye bedre resultater".

Etiske spørsmål

Å få en språkmodell til å resonnere mer som et menneske er forbundet med noen interessante problemstillinger og etiske spørsmål.

Forskerne påpeker at "det er umulig å vite at resonnementene som modellen uttrykker i språket, representerer modellens interne prosessering på en nøyaktig måte". Begrunnelsene som modellen genererer, er naturlige språklige representasjoner av dens indre resonnementer. Er de en nøyaktig gjenspeiling?

De bemerker videre at "det finnes ingen garantier mot skadelige eller skjeve resonneringsmønstre hvis modellen finner dem nyttige".

Vi kan være fornøyde med svaret fra en AI-modell, men det er ikke sikkert vi liker, eller forstår, tankeprosessen som førte til det.

En av artikkelens hovedforfattere, Eric Zelikman, ble nettopp ansatt i Elon Musks xAI denne uken. Han vil kanskje finne ut at Grok er mindre opptatt av disse etiske spørsmålene og mer begeistret over utsiktene til AI-utviklingen.

 

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser