Copyleaks rapporte que certaines sorties 60% de GPT-3.5 sont plagiées

25 février 2024

Une étude réalisée par Copyleaks a révélé qu'un nombre stupéfiant de 60% des résultats du GPT-3.5 d'OpenAI présentaient des signes de plagiat.

Copyleaks, qui développe des outils d'analyse du plagiat et du contenu de l'IA, met en évidence l'originalité et la fiabilité douteuses des textes générés par l'IA, en particulier à la lumière des récents événements survenus dans le monde entier. violation des droits d'auteur et les controverses sur le plagiat. 

L'étude a analysé 1 045 résultats de GPT-3.5, couvrant 26 sujets académiques et créatifs, y compris, mais sans s'y limiter, la physique, la chimie, l'informatique, la psychologie, le droit et les sciences humaines, chaque résultat ayant une longueur moyenne de 412 mots.

Les conclusions de la Rapport Copyleaks comprennent les éléments suivants :

  • Environ 59,7% de tous les textes générés par le GPT-3.5 contenaient du contenu plagié dans une certaine mesure.
  • 45,7% des résultats contenaient des correspondances exactes, 27,4% comportaient de légères modifications et 46,5% impliquaient la paraphrase de sources préexistantes.
  • C'est notamment dans le domaine de l'informatique que le "score de similitude" des résultats individuels est le plus élevé, avec quelque 100%, ce qui témoigne d'un problème important dans les domaines fortement tributaires d'un langage technique et spécialisé.

Le "score de similarité" de l'étude est une mesure exclusive conçue par Copyleaks pour quantifier le degré d'originalité d'un contenu. Il s'agit d'un fusionne différents facteurs, tels que le texte identique et la paraphrase.

La physique a enregistré le score de similitude moyen le plus élevé avec 31,3%, suivie de près par la psychologie avec 27,7% et les sciences générales avec 26,7%. À l'opposé, le théâtre a obtenu le score moyen le plus bas avec seulement 0,9%, suivi des sciences humaines avec 2,8% et de la langue anglaise avec 5,4%.

La dispersion des scores de similarité entre les sujets n'est pas particulièrement surprenante. Il existe un nombre quasi illimité de façons d'interpréter une pièce de Shakespeare et beaucoup moins de façons d'analyser un théorème mathématique bien établi, par exemple.

Alon Yamin, PDG et cofondateur de Copyleaks, a déclaré que les matières telles que la physique, la chimie, l'informatique et la psychologie doivent faire l'objet d'un examen plus approfondi en raison des notes élevées qu'elles obtiennent. 

"Par exemple, la physique, la chimie, les mathématiques et la psychologie peuvent nécessiter un examen plus approfondi pour identifier un texte plagié, tandis que d'autres matières, notamment le théâtre et les sciences humaines, peuvent nécessiter un examen moins approfondi", a déclaré M. Yamin.

Cependant, les éducateurs doivent reconnaître que certaines matières se prêtent naturellement à des scores de similarité élevés.

M. Yamin a également déclaré : "En outre, les données soulignent la nécessité pour les organisations d'adopter des solutions qui détectent la présence de contenu généré par l'IA et fournissent la transparence nécessaire concernant le plagiat potentiel dans le contenu de l'IA."

C'est un bon point. Si les organisations éducatives permettent à l'IA de rédiger et de générer du contenu (et certains le sont déjà), les étudiants pourraient toujours être exposés au plagiat.

Il convient également de préciser que les scores obtenus pour le contenu généré par le GPT-4 auraient été inférieurs aux scores de plagiat.

Si la majeure partie du contenu généré par l'IA est probablement encore créée avec le GPT-3.5 (parce qu'il est gratuit), le GPT-4 est sans aucun doute plus efficace pour générer des travaux originaux.

Toutefois, cela introduit un autre niveau de complexité.

Étant donné que GPT-4 fait partie de la version payante de ChatGPT, le fait d'accepter ou d'encourager l'utilisation de l'IA dans l'éducation pourrait constituer une discrimination à l'égard des utilisateurs de GPT-3.5, à moins que les abonnements ne soient subventionnés.

Un équilibre délicat

Alors que les outils d'IA générative s'intègrent dans les établissements d'enseignement, les éducateurs et les étudiants ne savent pas trop comment les utiliser. 

Des sociétés d'analyse de contenu telles que Copyleaks et Turnitin ont mis au point des outils de détection de l'IA qui permettent de prédire quand une chaîne de mots est probablement générée par l'IA. Toutefois, ces outils présentent des faiblesses évidentes et risquent d'aboutir à des faux positifs. 

En outre, il a été démontré que les logiciels de détection de l'IA privilégier l'écriture en langue maternelle anglaisecar il contient souvent une plus grande concentration de vocabulaire varié et d'expressions idiomatiques qui incitent les détecteurs d'intelligence artificielle à qualifier le texte d'"écrit par l'homme". 

Il ne sera pas facile de limiter l'utilisation de la technologie de l'IA dans le monde universitaire. L'IA générative est présentée comme l'outil de productivité ultime, et nombreux sont ceux qui affirment que si l'on peut l'utiliser, il faut le faire.

Les étudiants font souvent valoir que si ces outils sont omniprésents dans le monde réel, ils devraient également être autorisés dans les établissements d'enseignement. 

De plus, comme beaucoup le confirmeraient, l'éducation consiste parfois à trouver des raccourcis inventifs pour faire avancer les choses.

Peut-on vraiment s'attendre à ce que les étudiants laissent l'IA générative intacte sur la table ?

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation