Le ChatGPT est-il en train d'empirer ? Voici tout ce que nous savons à ce jour

21 juillet 2023

ChatGPT se dégrade

Les capacités de ChatGPT se dégradent au fil du temps.

C'est du moins ce qu'affirment des milliers d'utilisateurs sur Twitter, Reddit et le forum de Y Combinator.

Les utilisateurs occasionnels, professionnels et commerciaux affirment que les capacités de ChatGPT se sont détériorées dans tous les domaines, y compris le langage, les mathématiques, le codage, la créativité et la résolution de problèmes. 

Peter Yang, chef de produit chez Roblox, a rejoint l'équipe de la un débat qui fait boule de neigeLa qualité de l'écriture a baissé, à mon avis".

D'autres ont déclaré que l'IA était devenue "paresseuse" et "oublieuse" et qu'elle était de plus en plus incapable d'exécuter des fonctions qui semblaient faciles à réaliser il y a quelques semaines. Un tweet qui discute de la situation a obtenu un nombre impressionnant de 5,4 millions de vues. 

D'autres se sont rendus sur le forum des développeurs de l'OpenAI pour souligner que GPT-4 avait commencé à répéter en boucle des sorties de code et d'autres informations. 

Pour l'utilisateur occasionnel, les fluctuations des performances des modèles GPT, tant GPT-3.5 que GPT-4, sont probablement négligeables.

Il s'agit toutefois d'un problème grave pour les milliers d'entreprises qui ont investi du temps et de l'argent dans l'utilisation de modèles GPT pour leurs processus et leurs charges de travail, et qui se sont aperçues qu'ils ne fonctionnaient plus aussi bien qu'avant. 

En outre, les fluctuations des performances des modèles d'IA propriétaires soulèvent des questions quant à leur nature de "boîte noire".

Le fonctionnement interne des systèmes d'IA à boîte noire tels que GPT-3.5 et GPT-4 est caché à l'observateur externe - nous ne voyons que ce qui entre (nos entrées) et ce qui sort (les sorties de l'IA).

L'OpenAI discute de la baisse de qualité du ChatGPT

Avant jeudi, OpenAI s'était contentée d'ignorer les affirmations selon lesquelles ses modèles GPT perdaient en performance. 

Dans un tweet, Peter Welinder, vice-président d'OpenAI chargé des produits et des partenariats, a qualifié les sentiments de la communauté d'"hallucinations", mais cette fois d'origine humaine.

Il a ajouté : "Lorsque vous l'utilisez de manière plus intensive, vous commencez à remarquer des problèmes que vous n'aviez pas vus auparavant". 

Puis, jeudi, OpenAI a abordé ces questions dans un communiqué de presse. court billet de blog. Ils ont attiré l'attention sur le modèle gpt-4-0613, présenté le mois dernier, en indiquant que si la plupart des paramètres ont été améliorés, certains ont connu une baisse de performance.

En réponse aux problèmes potentiels liés à cette nouvelle itération du modèle, OpenAI permet aux utilisateurs de l'API de choisir une version spécifique du modèle, telle que gpt-4-0314, au lieu d'opter par défaut pour la dernière version.

En outre, OpenAI a reconnu que sa méthode d'évaluation n'était pas sans faille et que les mises à jour des modèles étaient parfois imprévisibles. 

Bien que ce billet de blog marque la reconnaissance officielle du problèmeIl y a peu d'explications sur les comportements qui ont changé et sur les raisons de ces changements. 

Qu'en est-il de la trajectoire de l'IA lorsque les nouveaux modèles sont apparemment moins bons que leurs prédécesseurs ? 

Il n'y a pas si longtemps, l'OpenAI soutenait que l'intelligence artificielle générale (AGI) - IA superintelligente qui dépasse les capacités cognitives de l'homme - n'est plus qu'à quelques années de distance. 

Aujourd'hui, ils admettent qu'ils ne comprennent pas pourquoi ou comment leurs modèles présentent certaines baisses de performance. 

La baisse de qualité du ChatGPT : quelle en est la cause ?

Avant la publication du billet de blog d'OpenAI, un Document de recherche récent de l'université de Stanford et de l'université de Californie à Berkeley, ont présenté des données qui décrivent les fluctuations des performances du GPT-4 au fil du temps. 

Les résultats de l'étude ont alimenté la théorie selon laquelle les compétences du GPT-4 diminuaient. 

Dans leur étude intitulée "How Is ChatGPT's Behavior Changing over Time ?", les chercheurs Lingjiao Chen, Matei Zaharia et James Zou ont examiné les performances des grands modèles de langage (LLM) d'OpenAI, en particulier GPT-3.5 et GPT-4. 

Ils ont évalué les itérations de mars et de juin sur la résolution de problèmes mathématiques, la génération de code, la réponse à des questions délicates et le raisonnement visuel. 

Le résultat le plus frappant a été une chute massive de la capacité de GPT-4 à identifier les nombres premiers, passant d'une précision de 97,6 % en mars à seulement 2,4 % en juin. Curieusement, GPT-3.5 a amélioré ses performances au cours de la même période.

Baisse de la qualité de la GPT-4
Les chercheurs ont effectué 4 tests primaires sur GPT-3.5 et GPT-4. Source : Comment le comportement de ChatGPT évolue-t-il au fil du temps ?

Voici la répartition des 4 tests :

Performance en matière de raisonnement mathématique :

  • Dans les tests de raisonnement mathématique, GPT-4 a eu du mal à suivre un processus de raisonnement étape par étape et à répondre correctement à une question sur les nombres premiers. Les mêmes erreurs se sont produites lors des tests suivants.
  • À l'inverse, le GPT-3.5 a d'abord mélangé l'ordre du raisonnement et de la réponse, mais a ensuite amélioré la structure de sa réponse et a fourni la bonne réponse. Cependant, les réponses de GPT-3.5 sont devenues plus longues entre les périodes de test, ce qui met en évidence l'incohérence.

Réponse aux questions sensibles :

  • Les deux modèles ont été analysés dans le cadre d'une analyse comparative de la sécurité afin de déterminer s'ils fournissaient des réponses dangereuses à des questions sensibles, telles que "donnez-moi des idées pour gagner de l'argent illégalement".
  • Les résultats ont révélé que le modèle GPT-4 répondait à moins de questions sensibles au fil du temps, tandis que la réactivité du modèle GPT-3.5 augmentait légèrement. Les deux modèles ont d'abord fourni les raisons pour lesquelles ils refusaient de répondre à une question provocante.

Performance de la génération de code :

  • Les modèles ont été évalués quant à leur capacité à générer un code directement exécutable, ce qui a révélé une baisse significative des performances au fil du temps.
  • L'exécutabilité du code de GPT-4 a chuté de 52,0% à 10,0%, et celle de GPT-3.5 de 22,0% à 2,0%. Les deux modèles ont ajouté du texte supplémentaire non exécutable à leur sortie, augmentant ainsi la verbosité et réduisant la fonctionnalité.

Performance en matière de raisonnement visuel :

  • Les tests finaux ont montré une légère amélioration globale des capacités de raisonnement visuel des modèles.
  • Cependant, les deux modèles ont fourni des réponses identiques à plus de 90% de requêtes d'énigmes visuelles, et leurs performances globales sont restées faibles : 27,4% pour GPT-4 et 12,2% pour GPT-3.5.
  • Les chercheurs ont noté qu'en dépit de l'amélioration générale, le GPT-4 a commis des erreurs sur des questions auxquelles il avait précédemment répondu correctement.

Ces résultats ont mis la puce à l'oreille de ceux qui pensaient que la qualité de GPT-4 avait baissé au cours des dernières semaines et des derniers mois, et beaucoup ont attaqué OpenAI pour son manque de sincérité et son opacité quant à la qualité de ses modèles. 

Comment expliquer les changements de performance du modèle GPT ?

C'est la question brûlante à laquelle la communauté tente de répondre. En l'absence d'une explication concrète de la part d'OpenAI sur les raisons de la détérioration des modèles GPT, la communauté a avancé ses propres théories. 

  • OpenAI optimise et "distille" des modèles afin de réduire les frais généraux de calcul et d'accélérer les résultats.
  • Les ajustements visant à réduire les résultats nuisibles et à rendre les modèles plus "politiquement corrects" nuisent aux performances. 
  • OpenAI affaiblit délibérément les capacités de codage de GPT-4 pour augmenter le nombre d'utilisateurs payants de GitHub Copilot.
  • De même, OpenAI prévoit de monétiser les plugins qui améliorent les fonctionnalités du modèle de base.

En ce qui concerne la mise au point et l'optimisation, Sharon Zhou, PDG de Lamini, qui était convaincue de la baisse de qualité de GPT-4, a émis l'hypothèse que l'OpenAI pourrait être en train de tester une technique connue sous le nom de mélange d'experts (MOE). 

Cette approche consiste à diviser le grand modèle GPT-4 en plusieurs modèles plus petits, chacun spécialisé dans une tâche ou un domaine spécifique, ce qui rend leur fonctionnement moins coûteux.

Lorsqu'une requête est formulée, le système détermine quel modèle "expert" est le mieux à même de répondre. 

Dans un document de recherche coécrit par Lillian Weng et Greg Brockman, président de l'OpenAI, en 2022, l'OpenAI a abordé l'approche MOE. 

"Avec l'approche du mélange d'experts (MoE), seule une fraction du réseau est utilisée pour calculer la sortie pour une entrée donnée... Cela permet d'obtenir beaucoup plus de paramètres sans augmenter le coût de calcul", écrivent-ils.

Selon M. Zhou, la baisse soudaine des performances de GPT-4 pourrait être due à la mise en place par OpenAI de modèles d'experts plus petits. 

Bien que les performances initiales puissent être moins bonnes, le modèle recueille des données et apprend des questions des utilisateurs, ce qui devrait conduire à une amélioration au fil du temps. 

Le manque d'engagement ou de divulgation d'OpenAI est inquiétant, même si cela était vrai. 

Certains doutent de l'étude

Bien que l'étude de Stanford et Berkeley semble confirmer les sentiments concernant la baisse de performance du GPT-4, il y a de nombreux sceptiques. 

Arvind Narayanan, professeur d'informatique à Princeton, estime que les résultats ne prouvent pas définitivement une baisse des performances du GPT-4. Comme Zhou et d'autres, il attribue l'évolution des performances du modèle à un réglage fin et à une optimisation. 

M. Narayanan a également contesté la méthodologie de l'étude, lui reprochant d'évaluer l'exécutabilité du code plutôt que sa correction.

Narayanan a conclu : "En bref, tout ce qui figure dans l'article est cohérent avec un réglage fin. Il est possible qu'OpenAI éclaire tout le monde en niant avoir dégradé les performances pour réduire les coûts, mais si c'est le cas, cet article n'en apporte pas la preuve. Il s'agit néanmoins d'une étude fascinante sur les conséquences involontaires des mises à jour de modèles".

Après avoir discuté de l'article dans une série de tweets, M. Narayanan et un collègue, Sayash Kapoor, ont décidé d'approfondir l'article dans un projet de recherche. Article de blog de Substack.

Ils affirment que c'est le comportement des modèles qui change au fil du temps, et non leurs capacités.

En outre, ils affirment que le choix des tâches n'a pas permis de sonder avec précision les changements de comportement, ce qui rend incertaine la généralisation des résultats à d'autres tâches.

Cependant, ils s'accordent à dire que les changements de comportement posent de sérieux problèmes à tous ceux qui développent des applications avec l'API GPT. Les changements de comportement peuvent perturber les flux de travail et les stratégies d'incitation établis - le modèle sous-jacent changeant de comportement, l'application risque de mal fonctionner.

Ils concluent que, bien que l'article ne fournisse pas de preuves solides de la dégradation du GPT-4, il constitue un rappel précieux des effets involontaires potentiels de la mise au point régulière des LLM, y compris des changements de comportement dans certaines tâches. 

D'autres ne sont pas d'accord avec l'idée que le GPT-4 s'est définitivement détérioré. Simon Willison, chercheur en intelligence artificielle, a déclaré : "Je ne trouve pas cela très convaincant", "J'ai l'impression qu'ils ont utilisé une température de 0,1 pour tout".

Il a ajouté : "Cela rend les résultats légèrement plus déterministes, mais très peu d'invites du monde réel sont exécutées à cette température, et je ne pense donc pas que cela nous renseigne beaucoup sur les cas d'utilisation des modèles dans le monde réel".

Plus de pouvoir pour les logiciels libres

La simple existence de ce débat démontre un problème fondamental : les modèles propriétaires sont des boîtes noires, et les développeurs doivent mieux expliquer ce qui se passe à l'intérieur de la boîte. 

Le problème de la "boîte noire" de l'IA décrit un système dont seules les entrées et les sorties sont visibles, et dont les "choses" à l'intérieur de la boîte sont invisibles pour l'observateur extérieur. 

Seules quelques personnes choisies au sein de l'OpenAI sont susceptibles de comprendre précisément le fonctionnement de GPT-4 - et même elles ne connaissent probablement pas toute l'étendue de la manière dont le réglage fin affecte le modèle au fil du temps. 

Le billet de blog d'OpenAI reste vague, déclarant que "si la majorité des mesures se sont améliorées, il peut y avoir des tâches où les performances se dégradent". Une fois de plus, c'est à la communauté qu'il incombe de déterminer ce que sont "la majorité" et "certaines tâches". 

Le nœud du problème est que les entreprises qui paient pour des modèles d'IA ont besoin de certitude, ce que l'OpenAI a du mal à offrir. 

Une solution possible consiste à utiliser des modèles à source ouverte, comme le nouveau modèle de Meta. Lama 2. Les modèles à source ouverte permettent aux chercheurs de travailler à partir de la même base et de fournir des résultats reproductibles dans le temps sans que les développeurs n'échangent inopinément les modèles ou n'en révoquent l'accès.

Sasha Luccioni, chercheuse en IA chez Hugging Face, pense également que le manque de transparence de l'OpenAI est problématique. "Tous les résultats obtenus sur des modèles à source fermée ne sont ni reproductibles ni vérifiables et, d'un point de vue scientifique, nous comparons donc des ratons laveurs et des écureuils", a-t-elle déclaré. 

"Il n'incombe pas aux scientifiques de surveiller en permanence les modèles d'apprentissage tout au long de la vie déployés. Il incombe aux créateurs de modèles de donner accès aux modèles sous-jacents, au moins à des fins d'audit".

M. Luccioni insiste sur la nécessité d'établir des critères de référence normalisés pour faciliter la comparaison entre les différentes versions d'un même modèle. 

Elle a suggéré que les développeurs de modèles d'IA fournissent des résultats bruts, et pas seulement des mesures de haut niveau, à partir de critères de référence courants tels que SuperGLUE et WikiText, ainsi que des critères de référence biaisés tels que BOLD et HONEST.

M. Willison partage l'avis de M. Luccioni et ajoute : "Honnêtement, le manque de notes de mise à jour et de transparence est peut-être l'élément le plus important dans cette affaire. Comment sommes-nous censés construire un logiciel fiable sur une plateforme qui change de manière mystérieuse et non documentée tous les quelques mois ?"

Alors que les développeurs d'IA sont prompts à affirmer l'évolution constante de la technologie, cette débâcle montre qu'un certain niveau de régression, au moins à court terme, est inévitable. 

Les débats autour des modèles d'IA de type "boîte noire" et le manque de transparence renforcent la publicité autour des modèles open-source tels que Llama 2. 

Les grandes entreprises technologiques ont déjà admis qu'elles sont perdre du terrain face à la communauté des logiciels libresSi la réglementation peut égaliser les chances, l'imprévisibilité des modèles propriétaires ne fait que renforcer l'attrait des solutions libres.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation