En ny maskininlärningsmodell slår AI-textdetekteringsmodeller för artiklar inom kemiområdet.
Studien, som publicerades i Cellrapporter Fysikalisk vetenskapbeskriver en AI-textklassificerare som överträffar prestandan hos två andra populära AI-detekteringssystem, inklusive ZeroGPT.
Modellen granskar 20 stilistiska drag i texter, till exempel variation i meningslängd och användning av specifika ord och skiljetecken, för att bedöma om en text har skrivits av en akademiker eller av ChatGPT.
Forskarna tränade modellen på inledningarna från 100 publicerade artiklar i tio kemitidskrifter från American Chemical Society (ACS). Forskarna uppmanade sedan ChatGPT-3.5 att skapa 200 introduktioner i en stil som överensstämmer med ACS-tidskrifter, och levererade titlarna för hälften och abstrakten för den andra hälften.
Vid utvärderingen identifierade detektorn felfritt 100% av introduktionerna författade av ChatGPT baserat på titlar. Vid analys av introduktioner som genererats från abstracts minskade noggrannheten något till 98%.
Detektorns skicklighet var konsekvent även med text från GPT-4-modellen. Det jämfördes med ZeroGPT och ett textklassificeringsverktyg från OpenAI, som båda uppvisade betydligt lägre träffsäkerhet.
Studiens medförfattare, Heather Desaire, kemist vid University of Kansas i Lawrence, betonade det unika fokus som deras verktyg har: "De flesta som arbetar med textanalys vill ha en väldigt generell detektor som fungerar på vad som helst. Vi var verkligen ute efter noggrannhet genom att skapa ett verktyg som fokuserar på en viss typ av papper."
Även om verktyget visade sin styrka i olika tidskriftsstilar och uppmaningar, är det mycket specialiserat på vetenskapliga artiklar och var mindre effektivt med material från universitetstidningar.
Eftersom AI endast tillämpades på inledningar och sammanfattningar skulle den inte fungera effektivt på en hel artikel.
Mer om studien
Med tanke på den dåliga prestandan bland befintliga AI-skrivningsdetektorer och kontroversen de orsakar, är alla modeller med en noggrannhetsgrad på nästan-100% verkligen mycket intressanta.
- Denna AI-textdetektor har utformats för vetenskapliga tidskriftsartiklar, särskilt kemitidskrifter, och uppvisar en anmärkningsvärd noggrannhet när det gäller att skilja mellan mänsklig och AI-genererad text, inklusive GPT-4-text.
- Detektorn, som använder en XGBoost-maskininlärningsalgoritm baserad på 20 distinkta textfunktioner, överträffar nuvarande AI-detekteringsverktyg och visar en noggrannhetsgrad på 98%-100%.
- Verktyget lyckades identifiera AI-genererad text i olika testscenarier, även med uppmaningar som utformats för att dölja användningen av AI, vilket tyder på robusthet mot olika skrivstilar och komplexitet.
Men med en så liten träningsdataset måste du säga att detta tillvägagångssätt verkar sårbart för överanpassning, vilket innebär att modellen kan fungera exceptionellt bra för de data som används men uppvisar dålig prestanda utanför den.
Dessutom kan det finnas en implicit fördom mot att märka text som mänskligt skriven i tvetydiga fall, med tanke på att detektorn utvecklas för att fånga AI-genererad text, vilket eventuellt prioriterar falska negativ framför falska positiva.