Quiet-STaR leert taalmodellen nadenken voordat ze spreken

maart 22, 2024

  • Onderzoekers van de Stanford University waren in staat om een LM te trainen om na te denken voordat hij output genereert
  • Quiet-STaR helpt het model bij het genereren en evalueren van rationales om de voorspelling van de volgende token te verbeteren.
  • De techniek levert verbeteringen op in perplexiteit en in benchmarks voor zero-shot wiskunde en redeneren.

Onderzoekers van Stanford University en Notbad AI ontwikkelden Quiet-STaR, een techniek die een taalmodel (LM) traint om intern te redeneren voordat het een output genereert.

Wanneer mensen spreken, hebben we normaal gesproken een innerlijke dialoog die vorm geeft aan de woorden die we uiteindelijk uitspreken. Hoe meer we nadenken voordat we spreken, hoe beter de kwaliteit van onze gesproken woorden.

In hun artikelbeschrijven de onderzoekers hoe ze een LM (Mistral-7B) om te leren hoe je dit proces op een algemene manier kunt imiteren. Quiet-STaR is een voortzetting van een andere techniek die STaR heet, oftewel Self-Taught Reasoner.

STaR is een methode om een model te trainen met een paar voorbeelden van vragen met uitleg (rationales) voor de antwoorden. Het model gebruikt deze voorbeelden om te proberen zelf vragen te beantwoorden en zo zelf de rationaliteit te achterhalen.

STaR evalueert of de rationales die het bedenkt wel of niet leiden tot correcte antwoorden en verfijnt de rationales.

Hoe indrukwekkend STaR ook is, zijn vermogen om te redeneren is beperkt tot de vraag-antwoord (QA) contexten tijdens de training. Het doel van Quiet-STaR is om een LM te voorzien van een gegeneraliseerd vermogen om te leren redeneren of rationales te ontwikkelen, over een breder scala aan teksten, niet alleen QA-datasets.

Hoe werkt Quiet-STaR?

Een van de belangrijkste innovaties in Quiet-STaR is dat het parallel rationalisaties, of gedachten, genereert die alle tokens in de tekst die verwerkt wordt volgen. Het voert deze redeneringen niet uit, vandaar het "Quiet" deel van de naam van het algoritme.

Het algoritme verwerkt de rationaliteiten door een "mengkop". Elke rationale wordt geëvalueerd op basis van de nauwkeurigheid van de voorspelling van het volgende token in vergelijking met de voorspelling van het basismodel.

Als het basismodel (zonder Quiet-STaR) een betere voorspelling oplevert, dan was de reden geen goede. Als de reden resulteert in een nauwkeurigere voorspelling van de volgende token, dan weet het algoritme dat het goed bezig is.

Vervolgens gebruikt het een algoritme voor versterkingsleren (REINFORCE) om te leren welke rationaliteiten helpen en welke de prestaties van het model belemmeren. Het resultaat is dat het model een gegeneraliseerd denkvermogen leert voordat het de volgende token voorspelt.

Resultaten Quiet-STaR

De onderzoekers testten het Quiet-STaR getrainde Mistral-7B model op de GSM8K wiskunde en CommonsenseQA gezond verstand redeneer benchmarks. Ze ontdekten dat Quiet-STaR de perplexiteit en zero-shot directe redeneervaardigheden verbeterde op zowel CommonsenseQA (36,3% tot 47,2%) als GSM8K (5,9% tot 10,9%) benchmarks.

Resultaten van Quiet-STaR voor GMSK8 wiskunde op de basisschool en CommonsenseQA redeneerbenchmarks voor gezond verstand. Elke lijn vertegenwoordigt een iteratie van Quiet-STaR met verschillende gedachte token lengtes, en hoeveel tokens vooruit het redeneerde. De basislijn is Mistral-7B zonder Quiet-STaR. Bron: arXiv

Hoewel de wiskundige redenering van Mistral-7B nog steeds niet geweldig is, leverde Quiet-STaR een verbetering van bijna 85% ten opzichte van het basismodel, en dat zonder enige dataset-specifieke fijnafstelling."

De testresultaten toonden ook aan dat verbeteringen in de prestaties direct gerelateerd waren aan het aantal tokens dat werd toegewezen aan de interne gedachten van het model. Hoe meer het model nadacht voordat het antwoordde, hoe beter het antwoord.

Deze verbeteringen gaan ten koste van een aanzienlijke computeroverhead. De innerlijke monoloog die het model voert tijdens het denkproces genereert veel tokens.

Verbeteringen in hardware zullen uiteindelijk de extra overhead die gepaard gaat met technieken als deze minder belangrijk maken.

De onderzoekers concluderen dat toekomstig werk aan het optimaliseren van Quiet-STaR ook zou kunnen helpen. Dynamisch voorspellen of een denkproces nodig is, of hoe lang het zou moeten duren, zou het aantal onnodige gedachten kunnen verminderen.

De resultaten van het trainen van een klein model als Mistral-7B met Quiet-STaR zijn veelbelovend. De onderzoekers geloven dat "dezelfde technieken toegepast op een beter model waarschijnlijk onevenredig betere resultaten zouden opleveren."

Ethische vragen

Een taalmodel meer laten redeneren als een mens brengt een aantal interessante problemen en ethische vragen met zich mee.

De onderzoekers merken op dat "het onmogelijk is om te weten of de redenering die door het model in taal wordt uitgedrukt, de interne verwerking van het model accuraat weergeeft." De redeneringen die het model genereert zijn natuurlijke taalrepresentaties van zijn innerlijke redeneringen. Zijn ze een accurate weergave?

Ze merken verder op dat "er geen garanties zijn tegen schadelijke of bevooroordeelde redeneerpatronen als het model ze nuttig vindt."

We kunnen blij zijn met het antwoord van een AI-model, maar we zijn misschien niet blij met, of begrijpen zelfs niet het denkproces dat dit antwoord heeft opgeleverd.

Een van de hoofdauteurs van de paper, Eric Zelikman, heeft zich deze week aangesloten bij xAI van Elon Musk. Hij vindt misschien dat Grok houdt zich minder bezig met deze ethische vragen en is meer enthousiast over het vooruitzicht van AI-vooruitgang.

 

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden