Les utilisateurs accueillent froidement les performances du GPT-4 Turbo

Depuis le lancement récent de GPT-4 Turbo, la dernière itération du modèle linguistique d'OpenAI, la communauté de l'IA est en proie à des réactions mitigées.

Alors qu'OpenAI a présenté GPT-4 Turbo comme une version plus performante et plus efficace de son prédécesseur, des témoignages d'utilisateurs suggèrent une expérience variée, en particulier dans les domaines nécessitant des capacités de raisonnement et de programmation de haut niveau.

Les preuves concrètes des tests de référence commencent à peine à faire surface.

Lors d'un test de référence indépendant, un utilisateur a évalué GPT-4 Turbo par rapport à GPT-4 et GPT-3.5 en utilisant des sections d'un test de lecture officiel du SAT 2008-2009.

Les résultats ont montré une différence notable dans les performances :

GPT-3.5 a obtenu un score de 690, avec 10 réponses incorrectes.
Le GPT-4 a obtenu un score de 770, avec seulement 3 réponses incorrectes.
GPT-4 Turbo, testé dans deux modes, a obtenu un score de 740 (5 fautes) et 730 (6 fautes), respectivement.

OpenAI prétend que GPT4-turbo est "meilleur" que GPT4, mais j'ai effectué mes propres tests et je ne pense pas que cela soit vrai.

J'ai fait un benchmarking sur le SAT reading, qui est une bonne référence humaine pour la capacité de raisonnement. J'ai pris 3 sections (67 questions) d'un test officiel de 2008-2009 (échelle de 2400) et j'ai obtenu le... pic.twitter.com/LzIYS3R9ny

- Jeffrey Wang (@wangzjeff) 7 novembre 2023

D'autres indices de référence indiquent le contraire

Un autre test préliminaire d'évaluation des performances a été effectué pour évaluer les capacités d'édition de code de cette nouvelle version, à l'aide d'un Aiderun outil de ligne de commande open-source conçu pour l'édition de code assistée par l'IA.

L'étude a montré que le GPT-4 Turbo (GPT-4-1106) présente de meilleures performances dans les tâches de codage, ce qui est, bien sûr, une tâche différente du test de langage naturel ci-dessus.

Le benchmark a utilisé Aider pour faciliter les interactions entre l'utilisateur et le modèle GPT-4 pour l'édition de code dans les dépôts git locaux. Le test comprenait 133 exercices de codage Python, fournissant une évaluation structurée et quantitative de l'efficacité et de la précision de l'édition de code du modèle.

Le processus a été structuré en deux phases :

Aider a fourni au modèle GPT-4 le fichier de code initial contenant des stubs de fonctions et des descriptions de problèmes en langage naturel. La première réponse du modèle a été directement appliquée pour modifier le code.
Si le code échoue à la suite de tests, Aider présente au modèle le résultat de l'erreur de test, en lui demandant de corriger le code.

GPT-4-1106-Résultats de l'examen

Amélioration de la vitesse: Le modèle GPT-4-1106-preview a montré une augmentation notable de la vitesse de traitement par rapport à ses prédécesseurs.
Précision du premier essai: Le modèle a démontré un taux de réussite de 53% en résolvant correctement les exercices du premier coup, ce qui représente une amélioration par rapport aux taux de réussite de 46 à 47% des versions précédentes du GPT-4.
Performances après corrections: Après avoir bénéficié d'une seconde chance pour corriger le code sur la base des erreurs de la suite de tests, le nouveau modèle a atteint un niveau de performance similaire (~62%) à celui des anciens modèles GPT-4, avec des taux de réussite d'environ 63 à 64%.

Expériences des utilisateurs dans les tâches de programmation

Les développeurs qui utilisent le GPT-4 Turbo pour des tâches liées au codage ont fait état d'expériences mitigées.

De nombreux utilisateurs sur X et Reddit ont noté une baisse de la capacité du modèle à suivre les instructions avec précision ou à retenir le contexte de manière efficace dans les scénarios de programmation. Certains sont revenus à l'utilisation du GPT-4 après avoir rencontré des difficultés avec le nouveau modèle.

Un utilisateur a exprimé sa frustration sur Reddit en déclarant : "Oui, c'est plutôt mauvais. J'exécute GPT-4 sur certains scripts et je conserve des échantillons de tests pour m'assurer qu'il fonctionne de la même manière. Tous ces tests ont échoué avec le nouveau GPT-4-preview, et j'ai dû revenir à l'ancien. Il ne peut pas raisonner correctement".

Un autre a fait remarquer : "C'est insensé ce que sont certaines réponses, cela me donne envie d'annuler mon abonnement".

Les anecdotes sont presque infinies. Un autre raconte : "J'ai collé une centaine de lignes de code et je lui ai simplement demandé des choses assez basiques. Le code qu'il m'a renvoyé était totalement différent de ce que je venais de lui montrer, et presque entièrement faux. Je ne l'ai jamais vu halluciner à ce point".

Malheureusement, j'ai remarqué que le GPT-4 Turbo était nettement moins performant que le GPT-4,
en particulier pour ce qui est de suivre les instructions.
Je ne suis pas le seul dans la communauté à ressentir cela.
Je n'ai pas testé en détail, mais j'espère que vous en prendrez note et que vous vous améliorerez.
Pour le reste, c'est assez décevant.

- Augusdin (@augusdin) 12 novembre 2023

Malgré les rapports des utilisateurs, l'OpenAI a mis l'accent sur les avancées en matière de GPT-4 TurboElle met en avant l'extension de la date limite d'acquisition des connaissances jusqu'en avril 2023 et l'augmentation de la fenêtre contextuelle, capable de gérer plus de 300 pages de texte.

OpenAI a également noté l'optimisation des performances du modèle, ce qui le rend plus rentable. Cependant, les détails sur les techniques d'optimisation spécifiques et leur impact sur les capacités du modèle restent limités.

Le PDG d'OpenAI, Sam Altman, a annoncé que Turbo avait été modifié aujourd'hui, demandant aux utilisateurs de réessayer le modèle, tout en admettant qu'il y avait des problèmes.

L'entreprise a dû faire face à des critiques similaires concernant les versions du GPT-4, qui semblaient être des produits d'intérêt général. baisse des performances depuis sa sortie.

L'OpenAI confrontée à des critiques concernant la censure

ChatGPT, développé par OpenAI, a fait l'objet d'un examen minutieux en raison de sa gestion de la censure et de ses éventuels préjugés politiques.

Les critiques affirment que le modèle a parfois tendance à éviter ou à biaiser des sujets spécifiques, en particulier ceux qui sont considérés comme politiquement sensibles ou controversés.

Ce comportement est souvent attribué aux données d'entraînement et aux directives de modération qui façonnent les réponses de l'IA.

Ces lignes directrices visent à empêcher la diffusion de fausses informations, de discours haineux et de contenus tendancieux, mais certains utilisateurs estiment que cette approche conduit à une surcorrection, ce qui donne l'impression que les réponses de l'IA sont censurées ou tendancieuses.

En revanche, Grok de xAI a été remarqué pour son approche apparemment moins restrictive de la modération des contenus.

Les utilisateurs de Grok ont observé que la plateforme semble plus disposée à aborder un plus large éventail de sujets, y compris ceux qui pourraient être filtrés ou traités avec plus de prudence par ChatGPT.

Grok, alimenté par les frasques d'Elon Musk, a été considéré comme un "coup d'épée" pour "l'IA éveillée", dont ChatGPT est le porte-drapeau.

En résumé, les tests de référence sur les performances de GPT-4 Turbo sont extrêmement limités à l'heure actuelle, et il est problématique de se fier à des rapports anecdotiques.

Le succès croissant d'OpenAI a placé l'entreprise dans la ligne de mire des gens, en particulier avec la sortie de Grok de xAI et sa résistance à l'"intelligence artificielle".

Il est exceptionnellement difficile pour l'instant d'obtenir un avis objectif sur les performances de GPT-4 Turbo, mais le débat sur la question de savoir si les résultats de ChatGPT s'améliorent réellement reste ouvert.

Les utilisateurs réservent un accueil glacial aux performances du GPT-4 Turbo

D'autres indices de référence indiquent le contraire

GPT-4-1106-Résultats de l'examen

Expériences des utilisateurs dans les tâches de programmation

L'OpenAI confrontée à des critiques concernant la censure

Rejoindre l'avenir

Sam Jeans

ARTICLES ASSOCIÉS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Les utilisateurs réservent un accueil glacial aux performances du GPT-4 Turbo

D'autres indices de référence indiquent le contraire

GPT-4-1106-Résultats de l'examen

Expériences des utilisateurs dans les tâches de programmation

L'OpenAI confrontée à des critiques concernant la censure

Rejoindre l'avenir

Sam Jeans

ARTICLES ASSOCIÉS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUIT EXCLUSIFGardez une longueur d'avance avec DailyAI

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI