Onderzoekers van Stanford University en Notbad AI ontwikkelden Quiet-STaR, een techniek die een taalmodel (LM) traint om intern te redeneren voordat het een output genereert.
Wanneer mensen spreken, hebben we normaal gesproken een innerlijke dialoog die vorm geeft aan de woorden die we uiteindelijk uitspreken. Hoe meer we nadenken voordat we spreken, hoe beter de kwaliteit van onze gesproken woorden.
In hun artikelbeschrijven de onderzoekers hoe ze een LM (Mistral-7B) om te leren hoe je dit proces op een algemene manier kunt imiteren. Quiet-STaR is een voortzetting van een andere techniek die STaR heet, oftewel Self-Taught Reasoner.
STaR is een methode om een model te trainen met een paar voorbeelden van vragen met uitleg (rationales) voor de antwoorden. Het model gebruikt deze voorbeelden om te proberen zelf vragen te beantwoorden en zo zelf de rationaliteit te achterhalen.
STaR evalueert of de rationales die het bedenkt wel of niet leiden tot correcte antwoorden en verfijnt de rationales.
Hoe indrukwekkend STaR ook is, zijn vermogen om te redeneren is beperkt tot de vraag-antwoord (QA) contexten tijdens de training. Het doel van Quiet-STaR is om een LM te voorzien van een gegeneraliseerd vermogen om te leren redeneren of rationales te ontwikkelen, over een breder scala aan teksten, niet alleen QA-datasets.
Hoe werkt Quiet-STaR?
Taalmodellen worden tegenwoordig getraind om ofwel 1) algemeen te redeneren, door online redeneergegevens te imiteren, of 2) beperkt te redeneren, waarbij ze zichzelf hun eigen oplossingen voor specifieke taken aanleren.
Kunnen LM's zichzelf leren redeneren in het algemeen? 🌟Introductie van Quiet-STaR, zelfleren via interne monoloog! pic.twitter.com/WCSxLPZeCX
- Eric Zelikman (@ericzelikman) 15 maart 2024
Een van de belangrijkste innovaties in Quiet-STaR is dat het parallel rationalisaties, of gedachten, genereert die alle tokens in de tekst die verwerkt wordt volgen. Het voert deze redeneringen niet uit, vandaar het "Quiet" deel van de naam van het algoritme.
Het algoritme verwerkt de rationaliteiten door een "mengkop". Elke rationale wordt geëvalueerd op basis van de nauwkeurigheid van de voorspelling van het volgende token in vergelijking met de voorspelling van het basismodel.
Als het basismodel (zonder Quiet-STaR) een betere voorspelling oplevert, dan was de reden geen goede. Als de reden resulteert in een nauwkeurigere voorspelling van de volgende token, dan weet het algoritme dat het goed bezig is.
Vervolgens gebruikt het een algoritme voor versterkingsleren (REINFORCE) om te leren welke rationaliteiten helpen en welke de prestaties van het model belemmeren. Het resultaat is dat het model een gegeneraliseerd denkvermogen leert voordat het de volgende token voorspelt.
Resultaten Quiet-STaR
De onderzoekers testten het Quiet-STaR getrainde Mistral-7B model op de GSM8K wiskunde en CommonsenseQA gezond verstand redeneer benchmarks. Ze ontdekten dat Quiet-STaR de perplexiteit en zero-shot directe redeneervaardigheden verbeterde op zowel CommonsenseQA (36,3% tot 47,2%) als GSM8K (5,9% tot 10,9%) benchmarks.
Hoewel de wiskundige redenering van Mistral-7B nog steeds niet geweldig is, leverde Quiet-STaR een verbetering van bijna 85% ten opzichte van het basismodel, en dat zonder enige dataset-specifieke fijnafstelling."
De testresultaten toonden ook aan dat verbeteringen in de prestaties direct gerelateerd waren aan het aantal tokens dat werd toegewezen aan de interne gedachten van het model. Hoe meer het model nadacht voordat het antwoordde, hoe beter het antwoord.
Deze verbeteringen gaan ten koste van een aanzienlijke computeroverhead. De innerlijke monoloog die het model voert tijdens het denkproces genereert veel tokens.
Verbeteringen in hardware zullen uiteindelijk de extra overhead die gepaard gaat met technieken als deze minder belangrijk maken.
De onderzoekers concluderen dat toekomstig werk aan het optimaliseren van Quiet-STaR ook zou kunnen helpen. Dynamisch voorspellen of een denkproces nodig is, of hoe lang het zou moeten duren, zou het aantal onnodige gedachten kunnen verminderen.
De resultaten van het trainen van een klein model als Mistral-7B met Quiet-STaR zijn veelbelovend. De onderzoekers geloven dat "dezelfde technieken toegepast op een beter model waarschijnlijk onevenredig betere resultaten zouden opleveren."
Ethische vragen
Een taalmodel meer laten redeneren als een mens brengt een aantal interessante problemen en ethische vragen met zich mee.
De onderzoekers merken op dat "het onmogelijk is om te weten of de redenering die door het model in taal wordt uitgedrukt, de interne verwerking van het model accuraat weergeeft." De redeneringen die het model genereert zijn natuurlijke taalrepresentaties van zijn innerlijke redeneringen. Zijn ze een accurate weergave?
Ze merken verder op dat "er geen garanties zijn tegen schadelijke of bevooroordeelde redeneerpatronen als het model ze nuttig vindt."
We kunnen blij zijn met het antwoord van een AI-model, maar we zijn misschien niet blij met, of begrijpen zelfs niet het denkproces dat dit antwoord heeft opgeleverd.
Een van de hoofdauteurs van de paper, Eric Zelikman, heeft zich deze week aangesloten bij xAI van Elon Musk. Hij vindt misschien dat Grok houdt zich minder bezig met deze ethische vragen en is meer enthousiast over het vooruitzicht van AI-vooruitgang.