{"id":10866,"date":"2024-03-22T10:03:11","date_gmt":"2024-03-22T10:03:11","guid":{"rendered":"https:\/\/dailyai.com\/?p=10866"},"modified":"2024-03-28T09:32:30","modified_gmt":"2024-03-28T09:32:30","slug":"quiet-star-teaches-language-models-to-think-before-they-speak","status":"publish","type":"post","link":"https:\/\/dailyai.com\/de\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/","title":{"rendered":"Quiet-STaR lehrt Sprachmodelle, zu denken, bevor sie sprechen"},"content":{"rendered":"<p><strong>Forscher der Stanford University und von Notbad AI haben Quiet-STaR entwickelt, eine Technik, die ein Sprachmodell (LM) trainiert, intern zu denken, bevor es eine Ausgabe erzeugt.<\/strong><\/p>\n<p>Wenn wir Menschen sprechen, f\u00fchren wir normalerweise einen inneren Dialog, der die Worte formt, die wir schlie\u00dflich aussprechen. Je mehr wir nachdenken, bevor wir sprechen, desto besser ist die Qualit\u00e4t unserer gesprochenen Worte.<\/p>\n<p><a href=\"https:\/\/arxiv.org\/pdf\/2403.09629.pdf\" target=\"_blank\" rel=\"noopener\">In ihrem Papier<\/a>beschreiben die Forscher, wie sie ein LM trainiert haben (<a href=\"https:\/\/dailyai.com\/de\/2024\/02\/mistral-ai-releases-new-model-and-chatbot-to-take-on-gpt-4\/\">Mistral-7B<\/a>), um zu lernen, wie man diesen Prozess in allgemeiner Form nachahmen kann. Quiet-STaR ist eine Weiterentwicklung einer anderen Technik namens STaR (Self-Taught Reasoner).<\/p>\n<p>STaR ist eine Methode zum Trainieren eines Modells mit einigen Beispielen von Fragen mit Erkl\u00e4rungen (Begr\u00fcndungen) f\u00fcr die Antworten. Das Modell verwendet diese Beispiele f\u00fcr die Gedankenkette, um zu versuchen, die Fragen selbst zu beantworten und die Begr\u00fcndungen selbst herauszufinden.<\/p>\n<p>STaR bewertet, ob die von ihm erarbeiteten Begr\u00fcndungen zu richtigen Antworten f\u00fchren und verfeinert seine Begr\u00fcndungen.<\/p>\n<p>So beeindruckend STaR auch ist, seine F\u00e4higkeit zu argumentieren ist auf den Frage-Antwort-Kontext (QA) w\u00e4hrend des Trainings beschr\u00e4nkt. Das Ziel von Quiet-STaR ist es, ein LM mit einer verallgemeinerten F\u00e4higkeit auszustatten, zu lernen, wie man argumentiert oder Begr\u00fcndungen entwickelt, und zwar \u00fcber ein breiteres Spektrum von Texten, nicht nur QA-Datens\u00e4tze.<\/p>\n<h2>Wie funktioniert Quiet-STaR?<\/h2>\n<blockquote class=\"twitter-tweet\">\n<p dir=\"ltr\" lang=\"en\">Sprachmodelle werden heute so trainiert, dass sie entweder 1) allgemein denken, indem sie Online-Denkdaten imitieren, oder 2) im engeren Sinne, indem sie ihre eigenen L\u00f6sungen f\u00fcr bestimmte Aufgaben selbst erlernen.<\/p>\n<p>K\u00f6nnen LMs sich selbst beibringen, allgemein zu argumentieren?\ud83c\udf1fEinf\u00fchrung von Quiet-STaR, Selbstunterricht durch internes Monologisieren!\ud83e\uddf5 <a href=\"https:\/\/t.co\/WCSxLPZeCX\">pic.twitter.com\/WCSxLPZeCX<\/a><\/p>\n<p>- Eric Zelikman (@ericzelikman) <a href=\"https:\/\/twitter.com\/ericzelikman\/status\/1768663835106513041?ref_src=twsrc%5Etfw\">M\u00e4rz 15, 2024<\/a><\/p><\/blockquote>\n<p><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><\/p>\n<p>Eine der wichtigsten Neuerungen von Quiet-STaR besteht darin, dass der Algorithmus parallel zu allen Token des zu verarbeitenden Textes Begr\u00fcndungen bzw. Gedanken erzeugt. Er gibt diese Gedankenketten nicht aus, daher der \"leise\" Teil des Namens des Algorithmus.<\/p>\n<p>Der Algorithmus verarbeitet die Rationals durch einen \"Mischkopf\". Jedes Rationale wird anhand der Genauigkeit der Vorhersage des n\u00e4chsten Tokens im Vergleich zur Vorhersage des Basismodells bewertet.<\/p>\n<p>Wenn das Basismodell (ohne Quiet-STaR) eine bessere Vorhersage liefert, dann war die Begr\u00fcndung nicht gut. Wenn die Begr\u00fcndung zu einer genaueren Vorhersage des n\u00e4chsten Tokens f\u00fchrt, dann wei\u00df der Algorithmus, dass er auf einem guten Weg ist.<\/p>\n<p>Es verwendet dann einen Algorithmus zum Verst\u00e4rkungslernen (REINFORCE), um zu lernen, welche Argumente die Leistung des Modells f\u00f6rdern und welche sie behindern. Das Ergebnis ist, dass das Modell eine verallgemeinerte Denkf\u00e4higkeit erlernt, bevor es das n\u00e4chste Token vorhersagt.<\/p>\n<h2>Quiet-STaR-Ergebnisse<\/h2>\n<p>Die Forscher testeten das mit Quiet-STaR trainierte Mistral-7B-Modell in den Mathematik-Benchmarks GSM8K und CommonsenseQA f\u00fcr gesundes logisches Denken. Sie fanden heraus, dass Quiet-STaR die Perplexit\u00e4t und die F\u00e4higkeit zum direkten Schlussfolgern bei den Benchmarks CommonsenseQA (36,3% auf 47,2%) und GSM8K (5,9% auf 10,9%) verbesserte.<\/p>\n<figure id=\"attachment_10868\" aria-describedby=\"caption-attachment-10868\" style=\"width: 1334px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-10868\" src=\"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/Quiet-STaR-benchmark-results.jpg\" alt=\"\" width=\"1334\" height=\"518\" srcset=\"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/Quiet-STaR-benchmark-results.jpg 1334w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/Quiet-STaR-benchmark-results-300x116.jpg 300w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/Quiet-STaR-benchmark-results-1024x398.jpg 1024w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/Quiet-STaR-benchmark-results-768x298.jpg 768w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/Quiet-STaR-benchmark-results-370x144.jpg 370w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/Quiet-STaR-benchmark-results-800x311.jpg 800w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/Quiet-STaR-benchmark-results-740x287.jpg 740w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/Quiet-STaR-benchmark-results-20x8.jpg 20w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/Quiet-STaR-benchmark-results-124x48.jpg 124w\" sizes=\"auto, (max-width: 1334px) 100vw, 1334px\" \/><figcaption id=\"caption-attachment-10868\" class=\"wp-caption-text\">Quiet-STaR-Ergebnisse bei den GMSK8-Benchmarks f\u00fcr Mathematik und CommonsenseQA f\u00fcr den gesunden Menschenverstand. Jede Linie repr\u00e4sentiert eine Iteration von Quiet-STaR mit unterschiedlicher L\u00e4nge der Gedanken-Token und wie viele Token voraus. Die Basislinie ist Mistral-7B ohne Quiet-STaR. Quelle: arXiv<\/figcaption><\/figure>\n<p>Obwohl die mathematischen F\u00e4higkeiten von Mistral-7B immer noch nicht gro\u00dfartig sind, hat Quiet-STaR eine Verbesserung von fast 85% gegen\u00fcber dem Basismodell erzielt, und das ohne jegliche datensatzspezifische Feinabstimmung.\"<\/p>\n<p>Die Testergebnisse zeigten auch, dass die Leistungsverbesserungen in direktem Zusammenhang mit der Anzahl der Token standen, die den internen Gedanken des Modells zugeordnet wurden. Je mehr es vor der Antwort dachte, desto besser war die Antwort.<\/p>\n<p>Diese Verbesserungen gehen auf Kosten eines erheblichen Rechenaufwands. Der innere Monolog, den das Modell w\u00e4hrend des Denkprozesses f\u00fchrt, erzeugt eine Menge Token.<\/p>\n<p>Durch die Verbesserung der Hardware wird der zus\u00e4tzliche Overhead, der mit solchen Techniken einhergeht, mit der Zeit weniger ins Gewicht fallen.<\/p>\n<p>Die Forscher kommen zu dem Schluss, dass k\u00fcnftige Arbeiten zur Optimierung von Quiet-STaR ebenfalls hilfreich sein k\u00f6nnten. Durch eine dynamische Vorhersage, ob ein Denkprozess erforderlich ist oder wie lange er dauern sollte, k\u00f6nnten unn\u00f6tige Gedankentoken reduziert werden.<\/p>\n<p>Die Ergebnisse des Trainings eines kleinen Modells wie Mistral-7B mit Quiet-STaR sind vielversprechend. Die Forscher glauben, dass \"dieselben Techniken, angewandt auf ein besseres Modell, wahrscheinlich unverh\u00e4ltnism\u00e4\u00dfig bessere Ergebnisse liefern w\u00fcrden\".<\/p>\n<h2>Ethische Fragen<\/h2>\n<p>Die Entwicklung eines Sprachmodells, das mehr wie ein Mensch denkt, bringt einige interessante Probleme und ethische Fragen mit sich.<\/p>\n<p>Die Forscher stellen fest, dass \"es unm\u00f6glich ist zu wissen, dass die vom Modell in Sprache ausgedr\u00fcckten \u00dcberlegungen die interne Verarbeitung des Modells genau wiedergeben\". Die Argumente, die das Modell generiert, sind nat\u00fcrlichsprachliche Darstellungen seines inneren Denkens. Sind sie ein genaues Abbild?<\/p>\n<p>Sie stellen ferner fest, dass es \"keine Schutzma\u00dfnahmen gegen sch\u00e4dliche oder voreingenommene Denkmuster gibt, wenn das Modell sie f\u00fcr n\u00fctzlich h\u00e4lt\".<\/p>\n<p>Wir m\u00f6gen mit der Antwort eines KI-Modells zufrieden sein, aber der Denkprozess, der zu dieser Antwort gef\u00fchrt hat, gef\u00e4llt uns vielleicht nicht oder wir verstehen ihn nicht einmal.<\/p>\n<p>Einer der Hauptautoren der Studie, Eric Zelikman, ist seit dieser Woche bei Elon Musk's xAI. Er k\u00f6nnte feststellen, dass <a href=\"https:\/\/dailyai.com\/de\/2024\/03\/elon-musks-xai-open-sources-its-llm-grok-1\/\">Grok<\/a> besch\u00e4ftigt sich weniger mit diesen ethischen Fragen als vielmehr mit der Aussicht auf den Fortschritt der KI.<\/p>\n<p>&nbsp;<\/p>","protected":false},"excerpt":{"rendered":"<p>Forscher der Stanford University und von Notbad AI haben Quiet-STaR entwickelt, eine Technik, die ein Sprachmodell (LM) darauf trainiert, intern zu denken, bevor es eine Ausgabe erzeugt. Wenn wir Menschen sprechen, f\u00fchren wir normalerweise einen inneren Dialog, der die Worte formt, die wir schlie\u00dflich verbalisieren. Je mehr wir nachdenken, bevor wir sprechen, desto besser ist die Qualit\u00e4t unserer gesprochenen Worte. In ihrer Arbeit beschreiben die Forscher, wie sie einen LM (Mistral-7B) darauf trainiert haben, diesen Prozess in allgemeiner Form zu imitieren. Quiet-STaR ist eine Weiterentwicklung einer anderen Technik namens STaR (Self-Taught Reasoner). STaR ist eine Methode zum Trainieren eines Modells mit ein paar<\/p>","protected":false},"author":6,"featured_media":10869,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[84],"tags":[118],"class_list":["post-10866","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-industry","tag-llms"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.4 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Quiet-STaR teaches language models to think before they speak | DailyAI<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/dailyai.com\/de\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Quiet-STaR teaches language models to think before they speak | DailyAI\" \/>\n<meta property=\"og:description\" content=\"Researchers from Stanford University and Notbad AI developed Quiet-STaR, a technique that trains a language model (LM) to reason internally before generating an output. When humans speak, we normally have an inner dialogue that shapes the words we eventually verbalize. The more we think before speaking, the better the quality of our spoken words. In their paper, the researchers describe how they trained an LM (Mistral-7B) to learn how to imitate this process in a generalized way. Quiet-STaR is a progression of another technique called STaR, or Self-Taught Reasoner. STaR is a method of training a model with a few\" \/>\n<meta property=\"og:url\" content=\"https:\/\/dailyai.com\/de\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/\" \/>\n<meta property=\"og:site_name\" content=\"DailyAI\" \/>\n<meta property=\"article:published_time\" content=\"2024-03-22T10:03:11+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2024-03-28T09:32:30+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/the-thinker.webp\" \/>\n\t<meta property=\"og:image:width\" content=\"1792\" \/>\n\t<meta property=\"og:image:height\" content=\"1024\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/webp\" \/>\n<meta name=\"author\" content=\"Eugene van der Watt\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@DailyAIOfficial\" \/>\n<meta name=\"twitter:site\" content=\"@DailyAIOfficial\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Eugene van der Watt\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"4\u00a0Minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"NewsArticle\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/03\\\/quiet-star-teaches-language-models-to-think-before-they-speak\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/03\\\/quiet-star-teaches-language-models-to-think-before-they-speak\\\/\"},\"author\":{\"name\":\"Eugene van der Watt\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/#\\\/schema\\\/person\\\/7ce525c6d0c79838b7cc7cde96993cfa\"},\"headline\":\"Quiet-STaR teaches language models to think before they speak\",\"datePublished\":\"2024-03-22T10:03:11+00:00\",\"dateModified\":\"2024-03-28T09:32:30+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/03\\\/quiet-star-teaches-language-models-to-think-before-they-speak\\\/\"},\"wordCount\":808,\"publisher\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/#organization\"},\"image\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/03\\\/quiet-star-teaches-language-models-to-think-before-they-speak\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2024\\\/03\\\/the-thinker.webp\",\"keywords\":[\"LLMS\"],\"articleSection\":[\"Industry\"],\"inLanguage\":\"de\"},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/03\\\/quiet-star-teaches-language-models-to-think-before-they-speak\\\/\",\"url\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/03\\\/quiet-star-teaches-language-models-to-think-before-they-speak\\\/\",\"name\":\"Quiet-STaR teaches language models to think before they speak | DailyAI\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/03\\\/quiet-star-teaches-language-models-to-think-before-they-speak\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/03\\\/quiet-star-teaches-language-models-to-think-before-they-speak\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2024\\\/03\\\/the-thinker.webp\",\"datePublished\":\"2024-03-22T10:03:11+00:00\",\"dateModified\":\"2024-03-28T09:32:30+00:00\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/03\\\/quiet-star-teaches-language-models-to-think-before-they-speak\\\/#breadcrumb\"},\"inLanguage\":\"de\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/dailyai.com\\\/2024\\\/03\\\/quiet-star-teaches-language-models-to-think-before-they-speak\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/03\\\/quiet-star-teaches-language-models-to-think-before-they-speak\\\/#primaryimage\",\"url\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2024\\\/03\\\/the-thinker.webp\",\"contentUrl\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2024\\\/03\\\/the-thinker.webp\",\"width\":1792,\"height\":1024},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/03\\\/quiet-star-teaches-language-models-to-think-before-they-speak\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/dailyai.com\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Quiet-STaR teaches language models to think before they speak\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/#website\",\"url\":\"https:\\\/\\\/dailyai.com\\\/\",\"name\":\"DailyAI\",\"description\":\"Your Daily Dose of AI News\",\"publisher\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/dailyai.com\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"de\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/#organization\",\"name\":\"DailyAI\",\"url\":\"https:\\\/\\\/dailyai.com\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2023\\\/06\\\/Daily-Ai_TL_colour.png\",\"contentUrl\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2023\\\/06\\\/Daily-Ai_TL_colour.png\",\"width\":4501,\"height\":934,\"caption\":\"DailyAI\"},\"image\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/x.com\\\/DailyAIOfficial\",\"https:\\\/\\\/www.linkedin.com\\\/company\\\/dailyaiofficial\\\/\",\"https:\\\/\\\/www.youtube.com\\\/@DailyAIOfficial\"]},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/#\\\/schema\\\/person\\\/7ce525c6d0c79838b7cc7cde96993cfa\",\"name\":\"Eugene van der Watt\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2023\\\/07\\\/Eugine_Profile_Picture-96x96.png\",\"url\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2023\\\/07\\\/Eugine_Profile_Picture-96x96.png\",\"contentUrl\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2023\\\/07\\\/Eugine_Profile_Picture-96x96.png\",\"caption\":\"Eugene van der Watt\"},\"description\":\"Eugene comes from an electronic engineering background and loves all things tech. When he takes a break from consuming AI news you'll find him at the snooker table.\",\"sameAs\":[\"www.linkedin.com\\\/in\\\/eugene-van-der-watt-16828119\"],\"url\":\"https:\\\/\\\/dailyai.com\\\/de\\\/author\\\/eugene\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Quiet-STaR bringt Sprachmodellen bei, zu denken, bevor sie sprechen | DailyAI","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/dailyai.com\/de\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/","og_locale":"de_DE","og_type":"article","og_title":"Quiet-STaR teaches language models to think before they speak | DailyAI","og_description":"Researchers from Stanford University and Notbad AI developed Quiet-STaR, a technique that trains a language model (LM) to reason internally before generating an output. When humans speak, we normally have an inner dialogue that shapes the words we eventually verbalize. The more we think before speaking, the better the quality of our spoken words. In their paper, the researchers describe how they trained an LM (Mistral-7B) to learn how to imitate this process in a generalized way. Quiet-STaR is a progression of another technique called STaR, or Self-Taught Reasoner. STaR is a method of training a model with a few","og_url":"https:\/\/dailyai.com\/de\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/","og_site_name":"DailyAI","article_published_time":"2024-03-22T10:03:11+00:00","article_modified_time":"2024-03-28T09:32:30+00:00","og_image":[{"width":1792,"height":1024,"url":"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/the-thinker.webp","type":"image\/webp"}],"author":"Eugene van der Watt","twitter_card":"summary_large_image","twitter_creator":"@DailyAIOfficial","twitter_site":"@DailyAIOfficial","twitter_misc":{"Verfasst von":"Eugene van der Watt","Gesch\u00e4tzte Lesezeit":"4\u00a0Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"NewsArticle","@id":"https:\/\/dailyai.com\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/#article","isPartOf":{"@id":"https:\/\/dailyai.com\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/"},"author":{"name":"Eugene van der Watt","@id":"https:\/\/dailyai.com\/#\/schema\/person\/7ce525c6d0c79838b7cc7cde96993cfa"},"headline":"Quiet-STaR teaches language models to think before they speak","datePublished":"2024-03-22T10:03:11+00:00","dateModified":"2024-03-28T09:32:30+00:00","mainEntityOfPage":{"@id":"https:\/\/dailyai.com\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/"},"wordCount":808,"publisher":{"@id":"https:\/\/dailyai.com\/#organization"},"image":{"@id":"https:\/\/dailyai.com\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/#primaryimage"},"thumbnailUrl":"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/the-thinker.webp","keywords":["LLMS"],"articleSection":["Industry"],"inLanguage":"de"},{"@type":"WebPage","@id":"https:\/\/dailyai.com\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/","url":"https:\/\/dailyai.com\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/","name":"Quiet-STaR bringt Sprachmodellen bei, zu denken, bevor sie sprechen | DailyAI","isPartOf":{"@id":"https:\/\/dailyai.com\/#website"},"primaryImageOfPage":{"@id":"https:\/\/dailyai.com\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/#primaryimage"},"image":{"@id":"https:\/\/dailyai.com\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/#primaryimage"},"thumbnailUrl":"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/the-thinker.webp","datePublished":"2024-03-22T10:03:11+00:00","dateModified":"2024-03-28T09:32:30+00:00","breadcrumb":{"@id":"https:\/\/dailyai.com\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/#breadcrumb"},"inLanguage":"de","potentialAction":[{"@type":"ReadAction","target":["https:\/\/dailyai.com\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/"]}]},{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/dailyai.com\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/#primaryimage","url":"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/the-thinker.webp","contentUrl":"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/03\/the-thinker.webp","width":1792,"height":1024},{"@type":"BreadcrumbList","@id":"https:\/\/dailyai.com\/2024\/03\/quiet-star-teaches-language-models-to-think-before-they-speak\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/dailyai.com\/"},{"@type":"ListItem","position":2,"name":"Quiet-STaR teaches language models to think before they speak"}]},{"@type":"WebSite","@id":"https:\/\/dailyai.com\/#website","url":"https:\/\/dailyai.com\/","name":"DailyAI","description":"Ihre t\u00e4gliche Dosis an AI-Nachrichten","publisher":{"@id":"https:\/\/dailyai.com\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/dailyai.com\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"de"},{"@type":"Organization","@id":"https:\/\/dailyai.com\/#organization","name":"DailyAI","url":"https:\/\/dailyai.com\/","logo":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/dailyai.com\/#\/schema\/logo\/image\/","url":"https:\/\/dailyai.com\/wp-content\/uploads\/2023\/06\/Daily-Ai_TL_colour.png","contentUrl":"https:\/\/dailyai.com\/wp-content\/uploads\/2023\/06\/Daily-Ai_TL_colour.png","width":4501,"height":934,"caption":"DailyAI"},"image":{"@id":"https:\/\/dailyai.com\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/x.com\/DailyAIOfficial","https:\/\/www.linkedin.com\/company\/dailyaiofficial\/","https:\/\/www.youtube.com\/@DailyAIOfficial"]},{"@type":"Person","@id":"https:\/\/dailyai.com\/#\/schema\/person\/7ce525c6d0c79838b7cc7cde96993cfa","name":"Eugene van der Watt","image":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/dailyai.com\/wp-content\/uploads\/2023\/07\/Eugine_Profile_Picture-96x96.png","url":"https:\/\/dailyai.com\/wp-content\/uploads\/2023\/07\/Eugine_Profile_Picture-96x96.png","contentUrl":"https:\/\/dailyai.com\/wp-content\/uploads\/2023\/07\/Eugine_Profile_Picture-96x96.png","caption":"Eugene van der Watt"},"description":"Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.","sameAs":["www.linkedin.com\/in\/eugene-van-der-watt-16828119"],"url":"https:\/\/dailyai.com\/de\/author\/eugene\/"}]}},"_links":{"self":[{"href":"https:\/\/dailyai.com\/de\/wp-json\/wp\/v2\/posts\/10866","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/dailyai.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dailyai.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dailyai.com\/de\/wp-json\/wp\/v2\/users\/6"}],"replies":[{"embeddable":true,"href":"https:\/\/dailyai.com\/de\/wp-json\/wp\/v2\/comments?post=10866"}],"version-history":[{"count":5,"href":"https:\/\/dailyai.com\/de\/wp-json\/wp\/v2\/posts\/10866\/revisions"}],"predecessor-version":[{"id":10873,"href":"https:\/\/dailyai.com\/de\/wp-json\/wp\/v2\/posts\/10866\/revisions\/10873"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/dailyai.com\/de\/wp-json\/wp\/v2\/media\/10869"}],"wp:attachment":[{"href":"https:\/\/dailyai.com\/de\/wp-json\/wp\/v2\/media?parent=10866"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dailyai.com\/de\/wp-json\/wp\/v2\/categories?post=10866"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dailyai.com\/de\/wp-json\/wp\/v2\/tags?post=10866"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}