Copyleaks rapporterer at noen 60% av GPT-3.5-utgangene er plagierte

25. februar 2024

En studie utført av Copyleaks viste at svimlende 60% av utdataene fra OpenAIs GPT-3.5 viste tegn på plagiat.

Copyleaks, som utvikler verktøy for analyse av plagiat og AI-innhold, fremhever AI-genererte teksters tvilsomme originalitet og pålitelighet, særlig i lys av den siste tidens brudd på opphavsretten og plagiatkontroverser. 

Studien analyserte 1045 utdata fra GPT-3.5, fordelt på 26 akademiske og kreative fag, inkludert, men ikke begrenset til, fysikk, kjemi, informatikk, psykologi, juss og humaniora, med en gjennomsnittlig lengde på 412 ord per utdata.

Resultatene av Copyleaks-rapport inkluderer følgende:

  • Omtrent 59,7% av alle GPT-3.5-genererte tekster viste seg å inneholde plagiert innhold i en eller annen grad.
  • 45,7% av utdataene inneholdt eksakte tekstsamsvar, 27,4% inneholdt små endringer, og 46,5% innebar parafrasering fra eksisterende kilder.
  • Faget informatikk hadde den høyeste individuelle "likhetsscoren" på rundt 100%, noe som viser at det er et stort problem på fagområder som er svært avhengige av teknisk og spesialisert språk.

Studiens "Similarity Score" er en egenutviklet beregning som er utviklet av Copyleaks for å kvantifisere graden av originalitet i innholdet. Den slår sammen ulike faktorer, som identisk tekst og parafrasering.

Fysikk hadde den høyeste gjennomsnittlige likhetsskåren på 31,3%, med psykologi ikke langt bak på 27,7% og allmennvitenskap på 26,7%. I motsatt ende av skalaen hadde teater den laveste gjennomsnittsskåren på bare 0,9%, etterfulgt av humaniora på 2,8% og engelsk på 5,4%.

Spredningen av likhetsskårer på tvers av fag er ikke spesielt overraskende. Det finnes nesten ubegrensede måter å tolke et Shakespeare-stykke på, og langt færre måter å analysere et veletablert matematisk teorem, for eksempel.

Alon Yamin, administrerende direktør og medstifter av Copyleaks, sier at fag som fysikk, kjemi, informatikk og psykologi bør undersøkes nærmere med tanke på plagiering, fordi de gir høyere poengsummer. 

"For eksempel kan fysikk, kjemi, matematikk og psykologi kreve en grundigere undersøkelse for å identifisere plagierte tekster, mens andre fag, inkludert teater og humaniora, kan kreve mindre gransking", sier Yamin.

Lærere må imidlertid være klar over at noen fag naturlig egner seg for høye likhetsskårer.

Yamin uttalte også: "Videre understreker dataene behovet for at organisasjoner tar i bruk løsninger som oppdager tilstedeværelsen av AI-generert innhold og sørger for den nødvendige åpenheten rundt potensielt plagiat i AI-innholdet."

Det er et godt poeng. Hvis utdanningsorganisasjoner lar AI utarbeide og generere innhold (og noen er det allerede), kan studentene likevel bli utsatt for plagiat.

Det må også sies at resultatene for GPT-4-generert innhold ville ha vist lavere plagiatskårer.

Selv om mesteparten av det AI-genererte innholdet sannsynligvis fortsatt lages med GPT-3.5 (fordi det er gratis), er GPT-4 utvilsomt mer effektiv når det gjelder å generere originalt arbeid.

Dette introduserer imidlertid et nytt lag med kompleksitet.

Siden GPT-4 er en del av betalingsversjonen av ChatGPT, vil det å akseptere eller oppmuntre til bruk av AI i utdanning kunne diskriminere GPT-3.5-brukere, med mindre abonnementet er subsidiert.

En hårfin balanse

Etter hvert som generative AI-verktøy blir integrert i akademiske miljøer, blir både lærere og studenter forvirret over bruken av dem. 

Innholdsanalyseselskaper som Copyleaks og Turnitin har utviklet verktøy for å oppdage kunstig intelligens som kan forutsi når en ordstreng sannsynligvis er generert av kunstig intelligens. Disse har imidlertid åpenbare svakheter og risiko for falske positiver. 

Videre har programvare for AI-deteksjon vist seg å favoriserer i stor grad engelskspråklige forfattereDet er ofte en høyere konsentrasjon av ulike ord og uttrykk som kan påvirke AI-detektorer til å stemple teksten som "menneskeskrevet". 

Det blir ikke lett å bremse bruken av AI-teknologi i akademia. Generativ AI blir omtalt som det ultimate produktivitetsverktøyet, og mange hevder at hvis du kan bruke det, bør du gjøre det.

Studenter hevder ofte at hvis disse verktøyene er utbredt i den virkelige verden, bør de også være tillatt i utdanningssammenheng. 

I tillegg, som mange kan skrive under på, handler utdanning noen ganger om å finne oppfinnsomme snarveier for å få ting gjort.

Kan du virkelig forvente at studentene skal la generativ AI ligge urørt på bordet?

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser