Copyleaks berichtet, dass einige 60% von GPT-3.5 Ausgaben plagiiert sind

25. Februar 2024

Eine Studie von Copyleaks ergab, dass 60% der Ausgaben von OpenAIs GPT-3.5 Anzeichen von Plagiaten aufwiesen.

Copyleaks, ein Unternehmen, das Tools zur Analyse von Plagiaten und KI-Inhalten entwickelt, weist auf die fragwürdige Originalität und Zuverlässigkeit von KI-generierten Texten hin, insbesondere im Lichte der jüngsten Urheberrechtsverletzung und Plagiatskontroversen. 

Die Studie analysierte 1.045 Ausgaben von GPT-3.5 aus 26 akademischen und kreativen Fächern, einschließlich, aber nicht beschränkt auf Physik, Chemie, Informatik, Psychologie, Recht und Geisteswissenschaften, wobei jede Ausgabe im Durchschnitt 412 Wörter umfasste.

Die Ergebnisse der Copyleaks-Bericht umfassen die folgenden Punkte:

  • Ungefähr 59,7% aller mit GPT-3.5 erstellten Texte enthielten in gewissem Maße plagiierte Inhalte.
  • 45,7% der Ausgaben enthielten exakte Textübereinstimmungen, 27,4% enthielten leichte Änderungen und 46,5% enthielten Paraphrasen aus bereits vorhandenen Quellen.
  • Bemerkenswert ist, dass das Fach Informatik mit rund 100% den höchsten "Ähnlichkeitsscore" bei den Einzelausgaben aufwies, was auf ein großes Problem in Bereichen hinweist, die stark auf Fachsprache angewiesen sind.

Der "Similarity Score" der Studie ist eine von Copyleaks entwickelte Metrik, die den Grad der Originalität von Inhalten quantifiziert. Er fasst verschiedene Faktoren zusammen, wie z. B. identischer Text und Paraphrasierung.

Physik verzeichnete mit 31,3% den höchsten mittleren Ähnlichkeitswert, gefolgt von Psychologie mit 27,7% und Allgemeinwissenschaften mit 26,7%. Am anderen Ende des Spektrums hatte Theater mit nur 0,9% den niedrigsten Durchschnittswert, gefolgt von Geisteswissenschaften mit 2,8% und der englischen Sprache mit 5,4%.

Die Streuung der Ähnlichkeitswerte in den verschiedenen Fächern ist nicht besonders überraschend. Es gibt nahezu unbegrenzte Möglichkeiten, ein Shakespeare-Stück zu interpretieren, und weitaus weniger, um beispielsweise ein gut etabliertes mathematisches Theorem zu analysieren.

Alon Yamin, CEO und Mitbegründer von Copyleaks, sagte, dass Fächer wie Physik, Chemie, Informatik und Psychologie aufgrund ihrer höheren Punktzahlen genauer auf Plagiate untersucht werden sollten. 

"In den Fächern Physik, Chemie, Mathematik und Psychologie kann es beispielsweise erforderlich sein, einen plagiierten Text genauer zu untersuchen, während andere Fächer, wie Theater und Geisteswissenschaften, weniger genau geprüft werden müssen", so Yamin.

Allerdings müssen Pädagogen anerkennen, dass sich einige Fächer von Natur aus für hohe Ähnlichkeitswerte eignen.

Yamin erklärte weiter: "Darüber hinaus unterstreichen die Daten die Notwendigkeit für Unternehmen, Lösungen einzuführen, die das Vorhandensein von KI-generierten Inhalten erkennen und die nötige Transparenz in Bezug auf potenzielle Plagiate innerhalb der KI-Inhalte bieten."

Das ist ein guter Punkt. Wenn Bildungseinrichtungen der KI erlauben, Inhalte zu erstellen und zu generieren (und einige sind es bereits), könnten die Schülerinnen und Schüler immer noch mit Plagiaten konfrontiert werden.

Es muss auch gesagt werden, dass die Ergebnisse für GPT-4-generierte Inhalte niedrigere Plagiatswerte ergeben hätten.

Während der Großteil der KI-generierten Inhalte wahrscheinlich immer noch mit GPT-3.5 erstellt wird (weil es kostenlos ist), ist GPT-4 zweifellos effektiver bei der Erstellung von Originalarbeiten.

Dies führt jedoch eine weitere Ebene der Komplexität ein.

Da GPT-4 Teil der kostenpflichtigen Version von ChatGPT ist, könnte die Akzeptanz oder Förderung von KI-Nutzungen im Bildungsbereich GPT-3.5-Nutzer diskriminieren, es sei denn, die Abonnements werden subventioniert.

Ein empfindliches Gleichgewicht

In dem Maße, in dem generative KI-Tools im akademischen Umfeld Einzug halten, sind sowohl Pädagogen als auch Studenten verwirrt über deren Einsatz. 

Inhaltsanalyseunternehmen wie Copyleaks und Turnitin haben KI-Erkennungswerkzeuge entwickelt, die vorhersagen, wann eine Wortfolge wahrscheinlich von KI generiert wurde. Diese haben jedoch offensichtliche Schwächen und bergen das Risiko falsch positiver Ergebnisse. 

Darüber hinaus hat sich gezeigt, dass die KI-Erkennungssoftware die englische Muttersprache stark bevorzugenda er oft eine höhere Konzentration an unterschiedlichem Vokabular und Redewendungen enthält, die KI-Detektoren dazu verleiten, den Text als "von Menschenhand geschrieben" einzustufen. 

Es wird nicht einfach sein, den Einsatz von KI-Technologie in der Wissenschaft einzuschränken. Generative KI wird als das ultimative Produktivitätswerkzeug angepriesen, und viele argumentieren, dass man sie nutzen sollte, wenn man es kann.

Die Schüler argumentieren oft, dass diese Werkzeuge, wenn sie in der realen Welt allgegenwärtig sind, auch im Bildungsbereich erlaubt sein sollten. 

Und wie viele bestätigen können, geht es in der Bildung manchmal darum, erfinderische Abkürzungen zu finden, um Dinge zu erledigen.

Können Sie wirklich erwarten, dass Studierende die generative KI unangetastet auf dem Tisch liegen lassen?

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen