Le ChatGPT a prouvé ses performances multidisciplinaires ces derniers temps, mais les compétences en mathématiques restent son talon d'Achille.
Le modèle GPT-4 a conquis les examens de l'école de médecine, l'examen du barreau de l'école de droit et a même affronté un test de MBA de la Wharton School de l'Université de Pennsylvanie. Les performances à l'examen du barreau (un examen juridique aux États-Unis) ont atteint le 90e percentile.
Un vaste étude a constaté que le ChatGPT battait les humains dans neuf des 32 sujets. C'est admirable, mais c'est loin d'être une réussite mondiale.
A étude récente dirigée par David Wood, professeur de comptabilité à l'université Brigham Young, a interrogé les compétences du modèle dans le domaine de la comptabilité et a révélé un manque flagrant de performance.
Pour beaucoup, cela semble contre-intuitif. L'IA - un système mathématique - excelle-t-elle dans les problèmes mathématiques ?
Actuellement, ce n'est pas le cas. De nombreux utilisateurs ont signalé que les grands modèles linguistiques (LLM) ont des difficultés avec les fonctions mathématiques de base. Les problèmes logiques en pâtissent également - les casse-tête prennent facilement ChatGPT en défaut, car le modèle ne peut pas systématiquement déterminer la bonne réponse.
Le professeur Wood a adopté une approche unique pour l'étude, en contactant des chercheurs sur les médias sociaux pour obtenir leur participation. La réponse a été massive : 327 coauteurs de 186 établissements d'enseignement de 14 pays ont participé à l'étude. Ils figurent tous sur la liste des auteurs de l'étude.
Cette approche a permis de produire plus de 27 000 questions d'examen de comptabilité de différents domaines et niveaux de difficulté qui ont été posées à ChatGPT.
Malgré la variété des types de questions, couvrant des sujets allant de la comptabilité financière à l'audit et de la comptabilité managériale à la fiscalité, les résultats ont été sans équivoque. ChatGPT a obtenu un score de 47,4%, ce qui est nettement inférieur au score moyen de 76,7% obtenu par les étudiants humains.
L'IA a fait preuve d'une certaine compétence en matière d'audit, mais a souffert lorsqu'il s'est agi de relever des défis en matière de fiscalité, de finance et de comptabilité de gestion.
Pour lutter contre leurs faibles compétences en mathématiques, Les LLM comme Google Bard transposer des questions de type mathématique en code exécutable et les traiter numériquement plutôt que comme un langage, mais cela n'est pas totalement fiable non plus.
Selon le professeur Wood, "lorsque cette technologie est apparue, tout le monde craignait que les étudiants puissent l'utiliser pour tricher".
"Mais les possibilités de tricher ont toujours existé. C'est pourquoi nous essayons de nous concentrer sur ce que nous pouvons faire avec cette technologie aujourd'hui et que nous ne pouvions pas faire avant, afin d'améliorer le processus d'enseignement pour les professeurs et le processus d'apprentissage pour les étudiants. Le tester nous a ouvert les yeux".
Alors, la prochaine fois que vous ferez le bilan de vos finances ou que vous calculerez le montant de vos impôts, utilisez une calculatrice plutôt que de vous fier à ChatGPT.