Quiet-STaR lehrt Sprachmodelle, zu denken, bevor sie sprechen

März 22, 2024

  • Forschern der Stanford University ist es gelungen, ein LM so zu trainieren, dass es denkt, bevor es Ausgaben generiert
  • Quiet-STaR unterstützt das Modell bei der Erstellung und Bewertung von Begründungen zur Verbesserung der Vorhersage des nächsten Tokens
  • Die Technik liefert Verbesserungen bei der Komplexität sowie bei Zero-Shot-Benchmarks für Mathematik und logisches Denken

Forscher der Stanford University und von Notbad AI haben Quiet-STaR entwickelt, eine Technik, die ein Sprachmodell (LM) trainiert, intern zu denken, bevor es eine Ausgabe erzeugt.

Wenn wir Menschen sprechen, führen wir normalerweise einen inneren Dialog, der die Worte formt, die wir schließlich aussprechen. Je mehr wir nachdenken, bevor wir sprechen, desto besser ist die Qualität unserer gesprochenen Worte.

In ihrem Papierbeschreiben die Forscher, wie sie ein LM trainiert haben (Mistral-7B), um zu lernen, wie man diesen Prozess in allgemeiner Form nachahmen kann. Quiet-STaR ist eine Weiterentwicklung einer anderen Technik namens STaR (Self-Taught Reasoner).

STaR ist eine Methode zum Trainieren eines Modells mit einigen Beispielen von Fragen mit Erklärungen (Begründungen) für die Antworten. Das Modell verwendet diese Beispiele für die Gedankenkette, um zu versuchen, die Fragen selbst zu beantworten und die Begründungen selbst herauszufinden.

STaR bewertet, ob die von ihm erarbeiteten Begründungen zu richtigen Antworten führen und verfeinert seine Begründungen.

So beeindruckend STaR auch ist, seine Fähigkeit zu argumentieren ist auf den Frage-Antwort-Kontext (QA) während des Trainings beschränkt. Das Ziel von Quiet-STaR ist es, ein LM mit einer verallgemeinerten Fähigkeit auszustatten, zu lernen, wie man argumentiert oder Begründungen entwickelt, und zwar über ein breiteres Spektrum von Texten, nicht nur QA-Datensätze.

Wie funktioniert Quiet-STaR?

Eine der wichtigsten Neuerungen von Quiet-STaR besteht darin, dass der Algorithmus parallel zu allen Token des zu verarbeitenden Textes Begründungen bzw. Gedanken erzeugt. Er gibt diese Gedankenketten nicht aus, daher der "leise" Teil des Namens des Algorithmus.

Der Algorithmus verarbeitet die Rationals durch einen "Mischkopf". Jedes Rationale wird anhand der Genauigkeit der Vorhersage des nächsten Tokens im Vergleich zur Vorhersage des Basismodells bewertet.

Wenn das Basismodell (ohne Quiet-STaR) eine bessere Vorhersage liefert, dann war die Begründung nicht gut. Wenn die Begründung zu einer genaueren Vorhersage des nächsten Tokens führt, dann weiß der Algorithmus, dass er auf einem guten Weg ist.

Es verwendet dann einen Algorithmus zum Verstärkungslernen (REINFORCE), um zu lernen, welche Argumente die Leistung des Modells fördern und welche sie behindern. Das Ergebnis ist, dass das Modell eine verallgemeinerte Denkfähigkeit erlernt, bevor es das nächste Token vorhersagt.

Quiet-STaR-Ergebnisse

Die Forscher testeten das mit Quiet-STaR trainierte Mistral-7B-Modell in den Mathematik-Benchmarks GSM8K und CommonsenseQA für gesundes logisches Denken. Sie fanden heraus, dass Quiet-STaR die Perplexität und die Fähigkeit zum direkten Schlussfolgern bei den Benchmarks CommonsenseQA (36,3% auf 47,2%) und GSM8K (5,9% auf 10,9%) verbesserte.

Quiet-STaR-Ergebnisse bei den GMSK8-Benchmarks für Mathematik und CommonsenseQA für den gesunden Menschenverstand. Jede Linie repräsentiert eine Iteration von Quiet-STaR mit unterschiedlicher Länge der Gedanken-Token und wie viele Token voraus. Die Basislinie ist Mistral-7B ohne Quiet-STaR. Quelle: arXiv

Obwohl die mathematischen Fähigkeiten von Mistral-7B immer noch nicht großartig sind, hat Quiet-STaR eine Verbesserung von fast 85% gegenüber dem Basismodell erzielt, und das ohne jegliche datensatzspezifische Feinabstimmung."

Die Testergebnisse zeigten auch, dass die Leistungsverbesserungen in direktem Zusammenhang mit der Anzahl der Token standen, die den internen Gedanken des Modells zugeordnet wurden. Je mehr es vor der Antwort dachte, desto besser war die Antwort.

Diese Verbesserungen gehen auf Kosten eines erheblichen Rechenaufwands. Der innere Monolog, den das Modell während des Denkprozesses führt, erzeugt eine Menge Token.

Durch die Verbesserung der Hardware wird der zusätzliche Overhead, der mit solchen Techniken einhergeht, mit der Zeit weniger ins Gewicht fallen.

Die Forscher kommen zu dem Schluss, dass künftige Arbeiten zur Optimierung von Quiet-STaR ebenfalls hilfreich sein könnten. Durch eine dynamische Vorhersage, ob ein Denkprozess erforderlich ist oder wie lange er dauern sollte, könnten unnötige Gedankentoken reduziert werden.

Die Ergebnisse des Trainings eines kleinen Modells wie Mistral-7B mit Quiet-STaR sind vielversprechend. Die Forscher glauben, dass "dieselben Techniken, angewandt auf ein besseres Modell, wahrscheinlich unverhältnismäßig bessere Ergebnisse liefern würden".

Ethische Fragen

Die Entwicklung eines Sprachmodells, das mehr wie ein Mensch denkt, bringt einige interessante Probleme und ethische Fragen mit sich.

Die Forscher stellen fest, dass "es unmöglich ist zu wissen, dass die vom Modell in Sprache ausgedrückten Überlegungen die interne Verarbeitung des Modells genau wiedergeben". Die Argumente, die das Modell generiert, sind natürlichsprachliche Darstellungen seines inneren Denkens. Sind sie ein genaues Abbild?

Sie stellen ferner fest, dass es "keine Schutzmaßnahmen gegen schädliche oder voreingenommene Denkmuster gibt, wenn das Modell sie für nützlich hält".

Wir mögen mit der Antwort eines KI-Modells zufrieden sein, aber der Denkprozess, der zu dieser Antwort geführt hat, gefällt uns vielleicht nicht oder wir verstehen ihn nicht einmal.

Einer der Hauptautoren der Studie, Eric Zelikman, ist seit dieser Woche bei Elon Musk's xAI. Er könnte feststellen, dass Grok beschäftigt sich weniger mit diesen ethischen Fragen als vielmehr mit der Aussicht auf den Fortschritt der KI.

 

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen