Des chercheurs de l'université de Stanford et de Notbad AI ont mis au point Quiet-STaR, une technique qui permet d'entraîner un modèle de langage (LM) à raisonner en interne avant de générer un résultat.
Lorsque nous parlons, nous avons normalement un dialogue intérieur qui façonne les mots que nous finissons par prononcer. Plus nous réfléchissons avant de parler, meilleure est la qualité de nos paroles.
Dans leur documentLes chercheurs décrivent comment ils ont formé un LM (Mistral-7B) pour apprendre à imiter ce processus de manière généralisée. Quiet-STaR est une progression d'une autre technique appelée STaR, ou Self-Taught Reasoner (raisonneur autodidacte).
STaR est une méthode qui consiste à former un modèle à l'aide de quelques exemples de questions accompagnées d'explications (justifications) pour les réponses. Le modèle utilise ces exemples de chaînes de pensée pour essayer de répondre aux questions de son propre chef, en trouvant lui-même les justifications.
STaR évalue si les raisonnements qu'il propose aboutissent ou non à des réponses correctes et affine ses raisonnements.
Aussi impressionnante que soit STaR, sa capacité à raisonner est limitée aux contextes de questions-réponses (QA) pendant la formation. L'objectif de Quiet-STaR est de fournir à un LM une capacité généralisée à apprendre à raisonner ou à développer des justifications, dans une gamme plus large de textes, et pas seulement dans des ensembles de données d'AQ.
Comment fonctionne Quiet-STaR ?
Aujourd'hui, les modèles de langage sont entraînés à raisonner soit 1) de manière générale, en imitant les données de raisonnement en ligne, soit 2) de manière étroite, en s'auto-apprenant à trouver leurs propres solutions à des tâches spécifiques.
Les LM peuvent-ils s'apprendre à raisonner de manière générale ? 🌟Introducing Quiet-STaR, self-teaching via internal monologue!🧵 pic.twitter.com/WCSxLPZeCX
- Eric Zelikman (@ericzelikman) 15 mars 2024
L'une des principales innovations de Quiet-STaR est qu'il génère des raisonnements, ou des pensées, en parallèle, en suivant tous les tokens du texte qu'il traite. Il ne produit pas ces raisonnements en chaîne, d'où la partie "silencieuse" du nom de l'algorithme.
L'algorithme traite les justifications par le biais d'une "tête de mélange". Chaque raisonnement est évalué sur la base de la précision de la prédiction du trait suivant qu'il a produite par rapport à la prédiction faite par le modèle de base.
Si le modèle de base (sans Quiet-STaR) fournit une meilleure prédiction, c'est que le raisonnement n'était pas bon. Si le raisonnement aboutit à une prédiction plus précise du prochain jeton, l'algorithme sait qu'il est sur la bonne voie.
Il utilise ensuite un algorithme d'apprentissage par renforcement (REINFORCE) pour apprendre quels raisonnements aident et lesquels entravent les performances du modèle. Le résultat est que le modèle apprend une capacité généralisée à réfléchir avant de prédire le prochain jeton.
Résultats de Quiet-STaR
Les chercheurs ont testé le modèle Mistral-7B entraîné par Quiet-STaR sur les benchmarks de mathématiques GSM8K et de raisonnement par le bon sens CommonsenseQA. Ils ont constaté que Quiet-STaR améliorait la perplexité et les capacités de raisonnement direct à partir de zéro, tant pour CommonsenseQA (36,3% à 47,2%) que pour GSM8K (5,9% à 10,9%).
Alors que le raisonnement mathématique de Mistral-7B n'est toujours pas excellent, Quiet-STaR a apporté une amélioration de près de 85% par rapport au modèle de base, et ce, sans aucun réglage fin spécifique à l'ensemble de données.
Les résultats des tests ont également montré que l'amélioration des performances était directement liée au nombre de jetons alloués aux pensées internes du modèle. Plus le modèle réfléchit avant de répondre, meilleure est la réponse.
Ces améliorations se font au prix d'un surcoût informatique important. Le monologue intérieur auquel se livre le modèle pendant le processus de réflexion génère un grand nombre de jetons.
Les améliorations apportées au matériel informatique finiront par réduire l'importance des frais généraux supplémentaires liés à ce type de techniques.
Les chercheurs concluent que les travaux futurs sur l'optimisation de Quiet-STaR pourraient également être utiles. La prédiction dynamique de la nécessité d'un processus de réflexion ou de sa durée pourrait réduire le nombre de jetons de réflexion inutiles.
Les résultats de l'entraînement d'un petit modèle comme Mistral-7B avec Quiet-STaR sont prometteurs. Les chercheurs estiment que "les mêmes techniques appliquées à un meilleur modèle donneraient probablement des résultats disproportionnés".
Questions éthiques
Faire en sorte qu'un modèle linguistique raisonne davantage comme un humain soulève des questions intéressantes et des problèmes éthiques.
Les chercheurs notent qu'"il est impossible de savoir si le raisonnement exprimé par le modèle dans le langage représente exactement le traitement interne du modèle". Les raisonnements générés par le modèle sont des représentations en langage naturel de son raisonnement interne. Sont-elles un reflet exact ?
Ils notent en outre qu'"il n'y a aucune garantie contre les schémas de raisonnement nuisibles ou biaisés si le modèle les trouve utiles".
Nous pouvons être satisfaits de la réponse d'un modèle d'IA, mais il se peut que nous n'aimions pas, ou même que nous ne comprenions pas, le processus de réflexion qui a abouti à cette réponse.
L'un des auteurs principaux de l'article, Eric Zelikman, a rejoint cette semaine l'entreprise xAI d'Elon Musk. Il se peut qu'il trouve que Grok se préoccupe moins de ces questions éthiques et est plus enthousiaste à l'idée des progrès de l'IA.