Quiet-STaR lærer sprogmodeller at tænke, før de taler

22. marts 2024

  • Forskere fra Stanford University var i stand til at træne en LM til at tænke, før den genererede output.
  • Quiet-STaR hjælper modellen med at generere og evaluere begrundelser for at forbedre forudsigelsen af næste token
  • Teknikken giver forbedringer i perplexitet samt i zero-shot matematik- og ræsonnement-benchmarks

Forskere fra Stanford University og Notbad AI har udviklet Quiet-STaR, en teknik, der træner en sprogmodel (LM) til at ræsonnere internt, før den genererer et output.

Når vi mennesker taler, har vi normalt en indre dialog, som former de ord, vi i sidste ende udtaler. Jo mere vi tænker, før vi taler, jo bedre bliver kvaliteten af vores talte ord.

I deres artikelbeskriver forskerne, hvordan de trænede en LM (Mistral-7B) for at lære at efterligne denne proces på en generel måde. Quiet-STaR er en videreudvikling af en anden teknik kaldet STaR, eller Self-Taught Reasoner.

STaR er en metode til at træne en model med nogle få eksempler på spørgsmål med forklaringer (rationaler) på svarene. Modellen bruger disse eksempler på tankekæder til at forsøge at besvare spørgsmål på egen hånd og selv finde ud af rationalerne.

STaR evaluerer, om de rationaler, den finder frem til, resulterer i korrekte svar eller ej, og forfiner sine rationaler.

Hvor imponerende STaR end er, er dens evne til at ræsonnere begrænset til spørgsmål-svar-sammenhænge (QA) under træningen. Målet med Quiet-STaR er at give en LM en generaliseret evne til at lære at ræsonnere eller udvikle rationaler på tværs af en bredere vifte af tekster, ikke kun QA-datasæt.

Hvordan virker Quiet-STaR?

En af de vigtigste nyskabelser i Quiet-STaR er, at den genererer rationaler eller tanker parallelt efter alle symboler i den tekst, den behandler. Den udsender ikke disse tankekæder, deraf den "stille" del af algoritmens navn.

Algoritmen behandler rationalerne gennem et "blandingshoved". Hvert rationale evalueres ud fra nøjagtigheden af den forudsigelse af det næste tegn, som det har produceret, sammenlignet med den forudsigelse, som basismodellen har lavet.

Hvis basismodellen (uden Quiet-STaR) giver en bedre forudsigelse, så var rationalet ikke godt. Hvis begrundelsen resulterer i en mere præcis forudsigelse af det næste token, ved algoritmen, at den har fat i noget godt.

Derefter bruger den en forstærkende læringsalgoritme (REINFORCE) til at lære, hvilke rationaler der hjælper, og hvilke der hæmmer modellens præstation. Resultatet er, at modellen lærer en generaliseret evne til at tænke, før den forudsiger det næste token.

Quiet-STaR resultater

Forskerne testede den Quiet-STaR-uddannede Mistral-7B-model på GSM8K matematik- og CommonsenseQA-benchmarks for sund fornuft. De fandt ud af, at Quiet-STaR forbedrede evnen til forvirring og direkte ræsonnement med nul skud på både CommonsenseQA (36,3% til 47,2%) og GSM8K (5,9% til 10,9%) benchmarks.

Quiet-STaR-resultater på GMSK8-matematik i grundskolen og CommonsenseQA-benchmarks for ræsonnementer baseret på sund fornuft. Hver linje repræsenterer en iteration af Quiet-STaR med varierende længder på tanketokens, og hvor mange tokens foran den ræsonnerede. Baseline er Mistral-7B uden Quiet-STaR. Kilde: arXiv

Mens Mistral-7B's matematiske ræsonnement stadig ikke er fantastisk, leverede Quiet-STaR en forbedring på næsten 85% i forhold til basismodellen, og det var uden nogen datasætspecifik finjustering."

Testresultaterne viste også, at forbedringer i præstationerne var direkte relateret til, hvor mange tokens der blev afsat til modellens indre tanker. Jo mere den tænkte, før den svarede, jo bedre var svaret.

Disse forbedringer kommer på bekostning af et betydeligt computeroverhead. Den indre monolog, som modellen fører under tankeprocessen, genererer en masse tokens.

Forbedringer i hardware vil i sidste ende gøre det ekstra overhead, der følger med teknikker som disse, mindre betydningsfuldt.

Forskerne konkluderer, at fremtidigt arbejde med at optimere Quiet-STaR også kan hjælpe. Dynamisk forudsigelse af, om en tankeproces er påkrævet, eller hvor lang den skal være, kan skære ned på unødvendige tanketokens.

Resultaterne af at træne en lille model som Mistral-7B med Quiet-STaR er lovende. Forskerne mener, at "de samme teknikker anvendt på en bedre model sandsynligvis ville give uforholdsmæssigt bedre resultater."

Etiske spørgsmål

At få en sprogmodel til at ræsonnere mere som et menneske medfører nogle interessante problemstillinger og etiske spørgsmål.

Forskerne bemærker, at "det er umuligt at vide, om det ræsonnement, som modellen udtrykker i sproget, nøjagtigt repræsenterer modellens interne behandling." De begrundelser, som modellen genererer, er naturlige sproglige repræsentationer af dens indre ræsonnementer. Er de en nøjagtig afspejling?

De bemærker desuden, at "der er ingen beskyttelse mod skadelige eller forudindtagede ræsonnementer, hvis modellen finder dem nyttige."

Vi er måske tilfredse med en AI-models svar, men det er ikke sikkert, at vi kan lide eller forstå den tankeproces, der førte til det.

En af artiklens hovedforfattere, Eric Zelikman, har lige sluttet sig til Elon Musks xAI i denne uge. Han vil måske opdage, at Grok er mindre optaget af disse etiske spørgsmål og mere begejstret for udsigten til AI-fremskridt.

 

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser