Uit een onderzoek van Copyleaks bleek dat maar liefst 60% van de uitvoer van OpenAI's GPT-3.5 tekenen van plagiaat vertoonde.
Copyleaks, die tools ontwikkelt voor het analyseren van plagiaat en AI-inhoud, wijst op de twijfelachtige originaliteit en betrouwbaarheid van AI-gegenereerde tekst, vooral in het licht van de recente ontwikkelingen op dit gebied. auteursrechtinbreuk en plagiaatcontroverses.
Het onderzoek analyseerde 1.045 outputs van GPT-3.5, verspreid over 26 academische en creatieve onderwerpen, inclusief maar niet beperkt tot natuurkunde, scheikunde, informatica, psychologie, rechten en geesteswetenschappen, waarbij elke output gemiddeld 412 woorden lang was.
De bevindingen van de Copyleaks rapport omvatten het volgende:
- Ongeveer 59,7% van alle door GPT-3.5 gegenereerde teksten bleek in enige mate plagiaat te bevatten.
- 45,7% van de uitvoer bevatte exacte tekstovereenkomsten, 27,4% bevatte kleine aanpassingen en 46,5% bevatte parafrasering van reeds bestaande bronnen.
- Met name het vak informatica kende de hoogste individuele output "Similarity Score" met ongeveer 100%, wat wijst op een aanzienlijk probleem in vakgebieden die sterk afhankelijk zijn van technische en gespecialiseerde taal.
De "Similarity Score" van het onderzoek is een door Copyleaks ontwikkelde methode om de mate van originaliteit in content te kwantificeren. Het combineert verschillende factoren, zoals identieke tekst en parafraseren.
Natuurkunde had de hoogste gemiddelde similariteitsscore met 31,3%, Psychologie niet ver daarachter met 27,7% en Algemene Natuurwetenschappen met 26,7%. Aan de andere kant van het spectrum had Theater de laagste gemiddelde score met slechts 0,9%, gevolgd door Geesteswetenschappen met 2,8% en Engelse Taal met 5,4%.
De spreiding van similariteitsscores over onderwerpen is niet echt verrassend. Er zijn bijvoorbeeld bijna oneindig veel manieren om een stuk van Shakespeare te interpreteren en veel minder om een gevestigde wiskundige stelling te analyseren.
Alon Yamin, CEO en medeoprichter van Copyleaks, zegt dat vakken als natuurkunde, scheikunde, informatica en psychologie vanwege hun hogere scores beter gecontroleerd moeten worden op plagiaat.
"Natuurkunde, Scheikunde, Wiskunde en Psychologie vereisen bijvoorbeeld een grondiger onderzoek om geplagieerde tekst te identificeren, terwijl andere vakken, zoals Theater en Geesteswetenschappen, misschien minder nauwkeurig onderzoek vereisen," zei Yamin.
Leerkrachten moeten echter erkennen dat sommige vakken zich van nature lenen voor hoge scores op gelijkenissen.
Yamin verklaarde ook: "Bovendien onderstrepen de gegevens de noodzaak voor organisaties om oplossingen te implementeren die de aanwezigheid van AI-gegenereerde inhoud detecteren en de nodige transparantie bieden rondom potentieel plagiaat binnen de AI-inhoud."
Dat is een goed punt. Als onderwijsorganisaties AI toestaan om inhoud op te stellen en te genereren (en sommige zijn dat al), kunnen studenten nog steeds worden blootgesteld aan plagiaat.
Het moet ook gezegd worden dat de scores voor GPT-4-gegenereerde inhoud lagere plagiaatscores zouden hebben laten zien.
Hoewel het grootste deel van de AI-gegenereerde inhoud waarschijnlijk nog steeds wordt gemaakt met GPT-3.5 (omdat het gratis is), is GPT-4 ongetwijfeld effectiever in het genereren van origineel werk.
Dit introduceert echter nog een laag complexiteit.
Aangezien GPT-4 deel uitmaakt van de betaalde versie van ChatGPT, zou het accepteren of aanmoedigen van AI-gebruik in het onderwijs gebruikers van GPT-3.5 kunnen discrimineren, tenzij abonnementen worden gesubsidieerd.
Een delicaat evenwicht
Nu generatieve AI-tools ingebed raken in academische omgevingen, zijn zowel docenten als studenten verward over het gebruik ervan.
Inhoudanalysebedrijven zoals Copyleaks en Turnitin hebben AI-detectietools ontwikkeld die voorspellen wanneer een reeks woorden waarschijnlijk door AI is gegenereerd. Deze hebben echter duidelijke zwakke punten en lopen het risico op fout-positieven.
Verder is gebleken dat AI-detectiesoftware sterk de voorkeur geven aan Engels als moedertaalomdat het vaak een hogere concentratie van diverse woordenschat en idiomen bevat om AI-detectors over te halen tekst als 'door mensen geschreven' te bestempelen.
Het zal niet eenvoudig zijn om het gebruik van AI-technologie in de academische wereld aan banden te leggen. Generatieve AI wordt aangeprezen als de ultieme productiviteitstool en velen vinden dat als je het kunt gebruiken, je het moet gebruiken.
Studenten argumenteren vaak dat als deze tools alomtegenwoordig zijn in de echte wereld, ze ook toegestaan zouden moeten zijn in educatieve omgevingen.
Plus, zoals velen zullen beamen, gaat onderwijs soms over het vinden van inventieve binnenwegen om dingen gedaan te krijgen.
Kun je echt verwachten dat studenten generatieve AI onaangeroerd op tafel laten liggen?