Quiet-STaR apprend aux modèles linguistiques à réfléchir avant de parler

22 mars 2024

  • Des chercheurs de l'université de Stanford ont réussi à entraîner un LM à réfléchir avant de générer des sorties.
  • Quiet-STaR aide le modèle à générer et à évaluer des justifications pour améliorer la prédiction du prochain jeton.
  • La technique permet d'améliorer la perplexité, ainsi que les tests de mathématiques et de raisonnement sans coup férir.

Des chercheurs de l'université de Stanford et de Notbad AI ont mis au point Quiet-STaR, une technique qui permet d'entraîner un modèle de langage (LM) à raisonner en interne avant de générer un résultat.

Lorsque nous parlons, nous avons normalement un dialogue intérieur qui façonne les mots que nous finissons par prononcer. Plus nous réfléchissons avant de parler, meilleure est la qualité de nos paroles.

Dans leur documentLes chercheurs décrivent comment ils ont formé un LM (Mistral-7B) pour apprendre à imiter ce processus de manière généralisée. Quiet-STaR est une progression d'une autre technique appelée STaR, ou Self-Taught Reasoner (raisonneur autodidacte).

STaR est une méthode qui consiste à former un modèle à l'aide de quelques exemples de questions accompagnées d'explications (justifications) pour les réponses. Le modèle utilise ces exemples de chaînes de pensée pour essayer de répondre aux questions de son propre chef, en trouvant lui-même les justifications.

STaR évalue si les raisonnements qu'il propose aboutissent ou non à des réponses correctes et affine ses raisonnements.

Aussi impressionnante que soit STaR, sa capacité à raisonner est limitée aux contextes de questions-réponses (QA) pendant la formation. L'objectif de Quiet-STaR est de fournir à un LM une capacité généralisée à apprendre à raisonner ou à développer des justifications, dans une gamme plus large de textes, et pas seulement dans des ensembles de données d'AQ.

Comment fonctionne Quiet-STaR ?

L'une des principales innovations de Quiet-STaR est qu'il génère des raisonnements, ou des pensées, en parallèle, en suivant tous les tokens du texte qu'il traite. Il ne produit pas ces raisonnements en chaîne, d'où la partie "silencieuse" du nom de l'algorithme.

L'algorithme traite les justifications par le biais d'une "tête de mélange". Chaque raisonnement est évalué sur la base de la précision de la prédiction du trait suivant qu'il a produite par rapport à la prédiction faite par le modèle de base.

Si le modèle de base (sans Quiet-STaR) fournit une meilleure prédiction, c'est que le raisonnement n'était pas bon. Si le raisonnement aboutit à une prédiction plus précise du prochain jeton, l'algorithme sait qu'il est sur la bonne voie.

Il utilise ensuite un algorithme d'apprentissage par renforcement (REINFORCE) pour apprendre quels raisonnements aident et lesquels entravent les performances du modèle. Le résultat est que le modèle apprend une capacité généralisée à réfléchir avant de prédire le prochain jeton.

Résultats de Quiet-STaR

Les chercheurs ont testé le modèle Mistral-7B entraîné par Quiet-STaR sur les benchmarks de mathématiques GSM8K et de raisonnement par le bon sens CommonsenseQA. Ils ont constaté que Quiet-STaR améliorait la perplexité et les capacités de raisonnement direct à partir de zéro, tant pour CommonsenseQA (36,3% à 47,2%) que pour GSM8K (5,9% à 10,9%).

Résultats de Quiet-STaR sur les benchmarks de raisonnement mathématique GMSK8 et de raisonnement de sens commun CommonsenseQA. Chaque ligne représente une itération de Quiet-STaR avec différentes longueurs de jetons de pensée, et le nombre de jetons en avance sur le raisonnement. La référence est Mistral-7B sans Quiet-STaR. Source : arXiv

Alors que le raisonnement mathématique de Mistral-7B n'est toujours pas excellent, Quiet-STaR a apporté une amélioration de près de 85% par rapport au modèle de base, et ce, sans aucun réglage fin spécifique à l'ensemble de données.

Les résultats des tests ont également montré que l'amélioration des performances était directement liée au nombre de jetons alloués aux pensées internes du modèle. Plus le modèle réfléchit avant de répondre, meilleure est la réponse.

Ces améliorations se font au prix d'un surcoût informatique important. Le monologue intérieur auquel se livre le modèle pendant le processus de réflexion génère un grand nombre de jetons.

Les améliorations apportées au matériel informatique finiront par réduire l'importance des frais généraux supplémentaires liés à ce type de techniques.

Les chercheurs concluent que les travaux futurs sur l'optimisation de Quiet-STaR pourraient également être utiles. La prédiction dynamique de la nécessité d'un processus de réflexion ou de sa durée pourrait réduire le nombre de jetons de réflexion inutiles.

Les résultats de l'entraînement d'un petit modèle comme Mistral-7B avec Quiet-STaR sont prometteurs. Les chercheurs estiment que "les mêmes techniques appliquées à un meilleur modèle donneraient probablement des résultats disproportionnés".

Questions éthiques

Faire en sorte qu'un modèle linguistique raisonne davantage comme un humain soulève des questions intéressantes et des problèmes éthiques.

Les chercheurs notent qu'"il est impossible de savoir si le raisonnement exprimé par le modèle dans le langage représente exactement le traitement interne du modèle". Les raisonnements générés par le modèle sont des représentations en langage naturel de son raisonnement interne. Sont-elles un reflet exact ?

Ils notent en outre qu'"il n'y a aucune garantie contre les schémas de raisonnement nuisibles ou biaisés si le modèle les trouve utiles".

Nous pouvons être satisfaits de la réponse d'un modèle d'IA, mais il se peut que nous n'aimions pas, ou même que nous ne comprenions pas, le processus de réflexion qui a abouti à cette réponse.

L'un des auteurs principaux de l'article, Eric Zelikman, a rejoint cette semaine l'entreprise xAI d'Elon Musk. Il se peut qu'il trouve que Grok se préoccupe moins de ces questions éthiques et est plus enthousiaste à l'idée des progrès de l'IA.

 

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation