Les réponses aux examens générées par l'IA ne sont pas détectées lors d'un test en conditions réelles

27 juin 2024

  • Les chercheurs ont mené une étude en aveugle pour mettre les éducateurs humains au défi de détecter les contenus générés par l'IA.
  • Les chercheurs de l'Université de Reading ont soumis des devoirs de psychologie générés par ChatGPT
  • Les réponses n'ont pas été détectées dans 94% des cas et ont obtenu en moyenne des notes plus élevées que les vrais étudiants

Des chercheurs de l'université de Reading, au Royaume-Uni, ont mené une étude en aveugle pour déterminer si les éducateurs humains étaient capables de détecter les contenus générés par l'IA. Les résultats ne sont pas de bon augure pour les enseignants.

L'évolution vers l'apprentissage à distance a permis à un grand nombre d'étudiants d'être évalués en dehors de l'espace traditionnel d'un examen écrit avec un surveillant à l'affût de toute tricherie.

L'accès facile à des modèles d'IA avancés a permis aux étudiants d'utiliser des outils tels que ChatGPT pour rédiger leurs devoirs à leur place ou les aider à passer leurs examens en ligne.

Un professeur d'université intelligent serait-il en mesure de savoir si un étudiant utilise l'IA pour répondre à des questions d'examen en ligne ?

Le professeur associé Peter Scarfe, l'un des le journal auteurs principaux, a déclaré : "De nombreuses institutions se sont éloignées des examens traditionnels pour rendre l'évaluation plus inclusive. Nos recherches montrent qu'il est d'une importance internationale de comprendre comment l'IA affectera l'intégrité des évaluations éducatives."

Dans le cadre de "l'étude en aveugle la plus vaste et la plus solide de son genre", les chercheurs ont soumis au système d'examen 100% AI écrites dans cinq modules de licence en psychologie.

Les correcteurs des examens n'étaient absolument pas au courant de l'étude. Cela a fait de l'expérience une sorte de test de Turing dans le monde réel, où un éducateur qui n'a pas crié "Tricheur !" sur un devoir a cru qu'un humain l'avait écrit.

Voici comment cela s'est passé :

  • Les soumissions ont été créées à l'aide de GPT-4.
  • Ils ont soumis un total de 33 épreuves d'examen générées par l'IA dans le cadre de cinq modules.
  • L'étude comprenait à la fois des questions à réponse courte (SAQ) et des questions à développement plus longues.
  • Pour les examens, les contributions consistaient en quatre réponses parmi un choix de six questions, chacune étant limitée à 200 mots.
  • Pour les examens sous forme de dissertation, les candidats ont soumis une seule dissertation de 1500 mots (les étudiants ont soumis une réponse parmi un choix de trois ou quatre réponses, en fonction du module).

Les chercheurs ont utilisé les invites suivantes avec ChatGPT pour les SAQ et les essais, respectivement :

  • "En incluant des références à la littérature académique, mais sans section de référence séparée, répondez à la question suivante en 160 mots : XXX"
  • "En incluant des références à la littérature académique, mais pas de section de référence séparée, écrivez un essai de 2000 mots répondant à la question suivante : XXX" (ils ont choisi 2 000 mots car ChatGPT ne respecte généralement pas le nombre de mots).
  • Dans chaque invite, XXX a été remplacé par la question de l'examen.

Lorsque les résultats ont été comptabilisés, 94% des travaux d'IA n'ont pas été notés par les correcteurs. Quelles sont les notes obtenues par les travaux d'IA ?

Les chercheurs ont déclaré : "Les notes attribuées à nos travaux d'IA étaient en moyenne supérieures d'un demi-point à celles obtenues par les étudiants réels. Sur l'ensemble des modules, il y avait 83,4% de chances que les travaux d'IA d'un module soient plus performants qu'une sélection aléatoire du même nombre de travaux d'étudiants réels".

Les chercheurs ont également noté que leur approche surestime probablement la détectabilité de l'utilisation de l'IA dans des scénarios réels. Comme l'explique M. Scarfe, "si de vrais étudiants trichaient lors d'un examen, il est peu probable qu'ils adoptent une approche aussi naïvement évidente que la nôtre." 

Dans la pratique, les étudiants peuvent utiliser l'IA comme point de départ, affiner et personnaliser les résultats, ce qui rend la détection encore plus difficile.

Et comme si cela ne suffisait pas, outre les soumissions d'IA des chercheurs, d'autres étudiants ont probablement utilisé ChatGPT pour leurs réponses. Cela signifie que le taux de détection pourrait être encore plus faible que les résultats enregistrés.

Pas de solutions simples

Les tuteurs n'auraient-ils pas pu simplement utiliser un logiciel de détection de l'IA ? Peut-être, mais pas avec certitude, selon l'étude. 

Les détecteurs d'IA, tels que ceux proposés par le populaire site académique Plate-forme de lutte contre le plagiat Turnitinse sont révélées inexactes. 

De plus, les détecteurs d'IA risquent de fausser accuser les personnes dont l'anglais n'est pas la langue maternelle qui sont moins susceptibles d'utiliser un certain vocabulaire, des expressions idiomatiques, etc., que l'IA peut considérer comme des signaux de l'écriture humaine.  

En l'absence de moyens fiables pour détecter les contenus générés par l'IA, les responsables de l'éducation ne savent plus où donner de la tête. L'utilisation de l'IA doit-elle être persécutée ou doit-elle simplement faire partie du programme d'études ? L'utilisation de l'IA doit-elle être normalisée comme la calculatrice ?

Dans l'ensemble, il existe un certain consensus sur le fait que l'intégration de l'IA dans l'éducation n'est pas sans risque. Au pire, elle menace d'éroder la pensée critique et de freiner la création de nouvelles connaissances authentiques. 

Le professeur Karen Yeung a mis en garde contre une éventuelle "déqualification" des étudiants, a déclaré au GuardianIl y a un réel danger que la génération à venir finisse par être attachée à ces machines, incapable de penser, d'analyser ou d'écrire sérieusement sans leur aide.

Pour lutter contre l'utilisation abusive de l'IA, les chercheurs de Reading recommandent d'abandonner les examens à domicile non supervisés au profit d'environnements plus contrôlés. Cela pourrait impliquer un retour aux examens traditionnels en personne ou le développement de nouveaux formats d'évaluation résistants à l'IA.

Une autre possibilité - et un modèle pour certaines universités suivent déjà - développe des cours qui enseignent aux étudiants comment utiliser l'IA de manière critique et éthique.

Nous devons également nous pencher sur le manque évident de connaissances en matière d'IA parmi les tuteurs mis en évidence par cette étude. C'est assez pitoyable. 

ChatGPT a souvent recours à certains "tropes" ou modèles de phrases qui deviennent assez évidents lorsque l'on y est exposé fréquemment. 

Il serait intéressant de voir comment un tuteur "formé" à reconnaître les écrits de l'IA se comporterait dans les mêmes conditions.

Le bilan des examens de la ChatGPT est mitigé

L'étude de l'université de Reading n'est pas la première à tester les capacités de l'IA dans un cadre universitaire. Plusieurs études ont examiné les performances de l'IA dans différents domaines et à différents niveaux d'éducation :

  • Examens médicaux: Un groupe de médecins pédiatres a testé le ChatGPT (GPT-3.5) sur le examen du conseil d'administration en néonatalogie et périnatalogie. L'IA n'a obtenu que 46% de réponses correctes, obtenant les meilleurs résultats dans les questions de rappel de base et de raisonnement clinique, mais éprouvant des difficultés avec le raisonnement multilogique. Il est intéressant de noter qu'elle a obtenu le score le plus élevé (78,5%) dans la section sur l'éthique.
  • Examens financiers: Les chercheurs de JPMorgan Chase & Co. ont testé le GPT-4 à l'examen de Chartered Financial Analyst (CFA). Alors que le ChatGPT n'était pas susceptible de réussir les niveaux I et II, le GPT-4 a montré "une chance décente" s'il était invité de manière appropriée. Les modèles d'IA ont obtenu de bons résultats dans les sections sur les produits dérivés, les investissements alternatifs et l'éthique, mais ont eu des difficultés dans les sections sur la gestion de portefeuille et l'économie.
  • Examens de droit: ChatGPT a été testé lors de l'examen du barreau et a souvent obtenu d'excellents résultats.
  • Tests standardisés: L'IA a obtenu de bons résultats aux examens Graduate Record Examinations (GRE), SAT Reading and Writing et Advanced Placement.
  • Cours universitaires: Une autre étude a comparé ChatGPT (modèle non indiqué) à 32 sujets de niveau universitaire, et a constaté qu'il battait ou dépassait les étudiants. à seulement 9 examens sur 32.

Ainsi, si l'IA excelle dans certains domaines, cela varie fortement en fonction du sujet et du type de test en question. 

La conclusion est que si vous êtes un étudiant qui n'a pas peur de tricher, vous pouvez utiliser ChatGPT pour obtenir de meilleures notes avec seulement 6% de chances de vous faire prendre. Vous ne pouvez qu'apprécier ces chances.

Comme l'ont noté les chercheurs, les méthodes d'évaluation des étudiants devront être modifiées pour préserver leur intégrité académique, d'autant plus que les contenus générés par l'IA sont de plus en plus difficiles à détecter.

Les chercheurs ont ajouté une conclusion humoristique à leur article.

"Si nous disions que GPT-4 avait conçu une partie de cette étude, effectué une partie de l'analyse et participé à la rédaction du manuscrit, en dehors des sections où nous avons cité GPT-4, quelles parties du manuscrit identifieriez-vous comme ayant été écrites par GPT-4 plutôt que par les auteurs cités ?"

Si les chercheurs ont "triché" en utilisant l'IA pour rédiger l'étude, comment le prouveriez-vous ?

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation