De nouvelles recherches ont révélé que les logiciels de détection de l'intelligence artificielle pouvaient être biaisés à l'encontre des personnes dont l'anglais n'est pas la langue maternelle.
Les étude a suggéré que plus de la moitié des essais rédigés par des humains dont l'anglais n'est pas la langue maternelle sont considérés à tort comme étant générés par l'IA. Les conséquences de ces faux positifs sont importantes, en particulier pour les étudiants et les candidats à l'emploi.
L'étude a testé sept détecteurs de texte d'IA largement utilisés sur des articles rédigés par des personnes dont l'anglais n'est pas la langue maternelle. Les résultats ont révélé un taux élevé de faux positifs, ces articles étant classés à tort comme étant générés par l'IA.
James Zou, professeur adjoint de science des données biomédicales à l'université de Stanford, a dirigé l'équipe qui a soumis 91 essais rédigés par des personnes dont l'anglais n'est pas la langue maternelle à sept détecteurs de TGP populaires.
Plus de la moitié de ces essais, rédigés pour le TOEFL (Test of English as a Foreign Language) mondialement reconnu, ont été signalés à tort comme étant générés par l'IA. Dans un cas, un programme a même signalé 98% des essais comme étant créés par l'IA.
En revanche, lorsque le logiciel a analysé des essais rédigés par des élèves américains de huitième année dont l'anglais est la langue maternelle, plus de 90% ont été correctement identifiés comme étant d'origine humaine.
Les détecteurs d'IA ont été largement critiqués parce qu'ils pénalisent les individus avec des faux positifs, bien que certains soient considérablement plus mauvais que d'autres.
L'une des principales conclusions de l'étude est que les détecteurs d'IA ont souvent du mal à interpréter correctement les expressions utilisées par les personnes dont l'anglais n'est pas la langue maternelle.
Ces systèmes ont été principalement formés à partir de données provenant de locuteurs natifs anglais, ce qui les conduit à qualifier certaines phrases ou structures d'incorrectes simplement parce qu'elles s'écartent de ce qui est considéré comme l'usage natif de la langue anglaise.
Les personnes dont l'anglais n'est pas la langue maternelle sont confrontées à une discrimination potentielle
Les implications de cette décision sont considérables. Les personnes dont l'anglais n'est pas la langue maternelle pourraient être confrontées à des difficultés lorsqu'elles soumettent leur travail par l'intermédiaire de plateformes de notation automatisées employées par les établissements d'enseignement.
En outre, des algorithmes discriminatoires pourraient pénaliser injustement les élèves dont la première langue n'est pas l'anglais, perpétuant ainsi l'inégalité sociale dans la salle de classe.
Les auteurs concluent : "Nous mettons fortement en garde contre l'utilisation de détecteurs GPT dans des contextes d'évaluation ou d'enseignement, en particulier lorsqu'il s'agit d'évaluer le travail de personnes dont l'anglais n'est pas la langue maternelle".
Mais pourquoi les algorithmes de détection de l'IA sont-ils contrariés par des textes dont l'anglais n'est pas la langue maternelle ?
Les détecteurs d'IA s'appuient sur la "perplexité du texte", une mesure de la prévisibilité avec laquelle un modèle de langage génératif peut anticiper le mot suivant dans une phrase. Une perplexité faible indique une prédiction facile, tandis qu'une perplexité élevée reflète une phrase moins prévisible. Les mots complexes, les phrases, les simulations, les métaphores et les expressions idiomatiques augmentent les scores de perplexité, ce qui peut manquer aux rédacteurs dont l'anglais n'est pas la langue maternelle.
Les IA ont tendance à produire une séquence de mots plus prévisible. Ainsi, les humains qui utilisent des mots courants dans des schémas familiers risquent de voir leur travail confondu avec un texte produit par l'IA.
Bien entendu, il ne s'agit pas seulement de textes rédigés dans une langue autre que la langue maternelle, mais aussi de textes rédigés dans un style ou à un niveau de lecture spécifique. Par exemple, un texte conçu pour être très lisible risque d'être signalé.
Ironiquement, après avoir identifié ce biais inhérent, les chercheurs ont utilisé ChatGPT pour réécrire les essais TOEFL signalés en utilisant un langage plus complexe.
Une fois traités à nouveau par les détecteurs d'IA, tous les essais édités ont été qualifiés d'écrits par des humains. Ce résultat souligne une situation quelque peu paradoxale : ces détecteurs pourraient, par inadvertance, encourager les auteurs non natifs à utiliser davantage l'IA pour échapper à la détection.
Pour lutter contre le plagiat, les enseignants ne se contentent pas de recourir à des détecteurs d'intelligence artificielle. Ils effectuent des tâches d'écriture supplémentaires en classe, examinent de plus près les références utilisées et leur exactitude, et analysent les citations pour en vérifier l'authenticité.
Entre-temps, les établissements d'enseignement établissent des règles pour l'utilisation et la gestion de l'IA, notamment le groupe d'universités britanniques Russell Group, qui a récemment publié un rapport sur l'utilisation de l'IA dans l'enseignement supérieur. déclaration commune sur l'IA.