En ny maskinlæringsmodell slår AI-tekstdeteksjonsmodeller for artikler innen kjemi.
Studien, som ble utgitt i Cell Reports Naturvitenskapbeskriver en AI-tekstklassifisering som overgår ytelsen til to andre populære AI-deteksjonssystemer, deriblant ZeroGPT.
Modellen gransker 20 stilistiske trekk ved skriving, som variasjon i setningslengde og spesifikk ord- og tegnsetting, for å vurdere om en tekst er forfattet av en akademiker eller av ChatGPT.
Forskerne trente modellen på introduksjonene fra 100 publiserte artikler i ti kjemitidsskrifter fra American Chemical Society (ACS). Deretter ba forskerne ChatGPT-3.5 om å lage 200 introduksjoner i en stil som samsvarte med ACS-tidsskriftene, og leverte titlene for halvparten og sammendragene for den andre halvparten.
Ved evaluering identifiserte detektoren feilfritt 100% av introduksjonene forfattet av ChatGPT basert på titler. Ved analyse av introduksjoner generert fra sammendrag ble nøyaktigheten noe redusert til 98%.
Detektorens ferdigheter var konsistente selv med tekst fra GPT-4-modellen. Den ble sammenlignet med ZeroGPT og et tekstklassifiseringsverktøy fra OpenAI, som begge viste betydelig lavere treffsikkerhet.
Studiens medforfatter, Heather Desaire, kjemiker ved University of Kansas i Lawrence, understreket verktøyets unike fokus: "De fleste som jobber med tekstanalyse, vil ha en veldig generell detektor som fungerer på hva som helst. Vi gikk virkelig etter nøyaktighet ved å lage et verktøy som fokuserer på en bestemt type papir."
Selv om verktøyet viste sin styrke på tvers av ulike tidsskriftstiler og spørsmål, er det svært spesialisert for vitenskapelige artikler og var mindre effektivt med materiale fra universitetsaviser.
Siden AI-en bare ble brukt på innledninger og sammendrag, ville den ikke fungere effektivt på en hel artikkel.
Mer om studien
Med tanke på den dårlige ytelsen blant eksisterende AI-skrivedetektorer og kontroversene de forårsaker, er enhver modell med en nøyaktighetsgrad på nesten-100% veldig interessant.
- Denne AI-tekstdetektoren er utviklet for vitenskapelige tidsskriftartikler, spesielt kjemitidsskrifter, og viser en bemerkelsesverdig nøyaktighet når det gjelder å skille mellom menneskelig og AI-generert tekst, inkludert GPT-4-tekst.
- Detektoren, som bruker en XGBoost-maskinlæringsalgoritme basert på 20 forskjellige tekstfunksjoner, utkonkurrerer dagens AI-deteksjonsverktøy og viser en nøyaktighetsgrad på 98%-100%.
- Verktøyet identifiserte AI-generert tekst i ulike testscenarioer, selv med instruksjoner som var utformet for å skjule bruken av AI, noe som indikerer robusthet mot ulike skrivestiler og kompleksiteter.
Med et så lite treningsdatasett må du imidlertid si at denne tilnærmingen virker sårbar for overtilpasning, noe som betyr at modellen kan fungere eksepsjonelt godt for dataene som brukes, men utvise dårlig ytelse utenfor det.
I tillegg kan det være en implisitt tendens til å stemple tekst som menneskeskrevet i tvetydige tilfeller, siden detektoren er utviklet for å fange opp AI-generert tekst, noe som kan føre til at falske negativer prioriteres fremfor falske positiver.