Les utilisateurs réservent un accueil glacial aux performances du GPT-4 Turbo

12 novembre 2023

GPT-4 Turbo

Depuis le lancement récent de GPT-4 Turbo, la dernière itération du modèle linguistique d'OpenAI, la communauté de l'IA est en proie à des réactions mitigées. 

Alors qu'OpenAI a présenté GPT-4 Turbo comme une version plus performante et plus efficace de son prédécesseur, des témoignages d'utilisateurs suggèrent une expérience variée, en particulier dans les domaines nécessitant des capacités de raisonnement et de programmation de haut niveau.

Les preuves concrètes des tests de référence commencent à peine à faire surface. 

Lors d'un test de référence indépendant, un utilisateur a évalué GPT-4 Turbo par rapport à GPT-4 et GPT-3.5 en utilisant des sections d'un test de lecture officiel du SAT 2008-2009.

Les résultats ont montré une différence notable dans les performances :

  • GPT-3.5 a obtenu un score de 690, avec 10 réponses incorrectes.
  • Le GPT-4 a obtenu un score de 770, avec seulement 3 réponses incorrectes.
  • GPT-4 Turbo, testé dans deux modes, a obtenu un score de 740 (5 fautes) et 730 (6 fautes), respectivement.

D'autres indices de référence indiquent le contraire

Un autre test préliminaire d'évaluation des performances a été effectué pour évaluer les capacités d'édition de code de cette nouvelle version, à l'aide d'un Aiderun outil de ligne de commande open-source conçu pour l'édition de code assistée par l'IA.

L'étude a montré que le GPT-4 Turbo (GPT-4-1106) présente de meilleures performances dans les tâches de codage, ce qui est, bien sûr, une tâche différente du test de langage naturel ci-dessus.

Le benchmark a utilisé Aider pour faciliter les interactions entre l'utilisateur et le modèle GPT-4 pour l'édition de code dans les dépôts git locaux. Le test comprenait 133 exercices de codage Python, fournissant une évaluation structurée et quantitative de l'efficacité et de la précision de l'édition de code du modèle.

Le processus a été structuré en deux phases :

  1. Aider a fourni au modèle GPT-4 le fichier de code initial contenant des stubs de fonctions et des descriptions de problèmes en langage naturel. La première réponse du modèle a été directement appliquée pour modifier le code.
  2. Si le code échoue à la suite de tests, Aider présente au modèle le résultat de l'erreur de test, en lui demandant de corriger le code.

GPT-4-1106-Résultats de l'examen

  • Amélioration de la vitesse: Le modèle GPT-4-1106-preview a montré une augmentation notable de la vitesse de traitement par rapport à ses prédécesseurs.
  • Précision du premier essai: Le modèle a démontré un taux de réussite de 53% en résolvant correctement les exercices du premier coup, ce qui représente une amélioration par rapport aux taux de réussite de 46 à 47% des versions précédentes du GPT-4.
  • Performances après corrections: Après avoir bénéficié d'une seconde chance pour corriger le code sur la base des erreurs de la suite de tests, le nouveau modèle a atteint un niveau de performance similaire (~62%) à celui des anciens modèles GPT-4, avec des taux de réussite d'environ 63 à 64%. 

Expériences des utilisateurs dans les tâches de programmation

Les développeurs qui utilisent le GPT-4 Turbo pour des tâches liées au codage ont fait état d'expériences mitigées.

De nombreux utilisateurs sur X et Reddit ont noté une baisse de la capacité du modèle à suivre les instructions avec précision ou à retenir le contexte de manière efficace dans les scénarios de programmation. Certains sont revenus à l'utilisation du GPT-4 après avoir rencontré des difficultés avec le nouveau modèle.

Un utilisateur a exprimé sa frustration sur Reddit en déclarant : "Oui, c'est plutôt mauvais. J'exécute GPT-4 sur certains scripts et je conserve des échantillons de tests pour m'assurer qu'il fonctionne de la même manière. Tous ces tests ont échoué avec le nouveau GPT-4-preview, et j'ai dû revenir à l'ancien. Il ne peut pas raisonner correctement".

Un autre a fait remarquer : "C'est insensé ce que sont certaines réponses, cela me donne envie d'annuler mon abonnement".

Les anecdotes sont presque infinies. Un autre raconte : "J'ai collé une centaine de lignes de code et je lui ai simplement demandé des choses assez basiques. Le code qu'il m'a renvoyé était totalement différent de ce que je venais de lui montrer, et presque entièrement faux. Je ne l'ai jamais vu halluciner à ce point".

Malgré les rapports des utilisateurs, l'OpenAI a mis l'accent sur les avancées en matière de GPT-4 TurboElle met en avant l'extension de la date limite d'acquisition des connaissances jusqu'en avril 2023 et l'augmentation de la fenêtre contextuelle, capable de gérer plus de 300 pages de texte. 

OpenAI a également noté l'optimisation des performances du modèle, ce qui le rend plus rentable. Cependant, les détails sur les techniques d'optimisation spécifiques et leur impact sur les capacités du modèle restent limités.

Le PDG d'OpenAI, Sam Altman, a annoncé que Turbo avait été modifié aujourd'hui, demandant aux utilisateurs de réessayer le modèle, tout en admettant qu'il y avait des problèmes.

L'entreprise a dû faire face à des critiques similaires concernant les versions du GPT-4, qui semblaient être des produits d'intérêt général. baisse des performances depuis sa sortie

L'OpenAI confrontée à des critiques concernant la censure

ChatGPT, développé par OpenAI, a fait l'objet d'un examen minutieux en raison de sa gestion de la censure et de ses éventuels préjugés politiques. 

Les critiques affirment que le modèle a parfois tendance à éviter ou à biaiser des sujets spécifiques, en particulier ceux qui sont considérés comme politiquement sensibles ou controversés. 

Ce comportement est souvent attribué aux données d'entraînement et aux directives de modération qui façonnent les réponses de l'IA. 

Ces lignes directrices visent à empêcher la diffusion de fausses informations, de discours haineux et de contenus tendancieux, mais certains utilisateurs estiment que cette approche conduit à une surcorrection, ce qui donne l'impression que les réponses de l'IA sont censurées ou tendancieuses.

En revanche, Grok de xAI a été remarqué pour son approche apparemment moins restrictive de la modération des contenus. 

Les utilisateurs de Grok ont observé que la plateforme semble plus disposée à aborder un plus large éventail de sujets, y compris ceux qui pourraient être filtrés ou traités avec plus de prudence par ChatGPT. 

Grok, alimenté par les frasques d'Elon Musk, a été considéré comme un "coup d'épée" pour "l'IA éveillée", dont ChatGPT est le porte-drapeau. 

En résumé, les tests de référence sur les performances de GPT-4 Turbo sont extrêmement limités à l'heure actuelle, et il est problématique de se fier à des rapports anecdotiques.

Le succès croissant d'OpenAI a placé l'entreprise dans la ligne de mire des gens, en particulier avec la sortie de Grok de xAI et sa résistance à l'"intelligence artificielle". 

Il est exceptionnellement difficile pour l'instant d'obtenir un avis objectif sur les performances de GPT-4 Turbo, mais le débat sur la question de savoir si les résultats de ChatGPT s'améliorent réellement reste ouvert. 

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation