Ny forskning har afsløret potentiel bias mod ikke-indfødte engelsktalende i AI-detekteringssoftware.
Den undersøgelse Det tyder på, at over halvdelen af de engelsksprogede essays, der er skrevet af mennesker, fejlagtigt bliver markeret som AI-genererede. Konsekvenserne af sådanne falske positiver er betydelige, især for studerende og jobansøgere.
Undersøgelsen testede syv udbredte AI-tekstdetektorer på artikler skrevet af personer, der ikke har engelsk som modersmål. Resultaterne viste en høj falsk positiv rate, hvor disse artikler fejlagtigt blev klassificeret som AI-genererede.
James Zou, assisterende professor i biomedicinsk datavidenskab ved Stanford University, ledede holdet, der kørte 91 essays skrevet af personer, der ikke har engelsk som modersmål, gennem syv populære GPT-detektorer.
Disse essays, der var skrevet til den globalt anerkendte TOEFL (Test of English as a Foreign Language), blev i mere end halvdelen af tilfældene fejlagtigt markeret som AI-genererede. I ét tilfælde markerede et program endda 98% af essaysene som AI-skabte.
I modsætning hertil blev over 90% korrekt identificeret som menneskeskabte, da softwaren analyserede essays skrevet af engelsktalende 8. klasses elever fra USA.
AI-detektorer er blevet kritiseret for at straffe enkeltpersoner med falske positiver, selvom nogle er betydeligt værre end andre.
En af undersøgelsens vigtigste konklusioner er, at AI-detektorer ofte kæmper med at fortolke udtryk, der bruges af personer, der ikke har engelsk som modersmål.
Disse systemer er primært blevet trænet på data fra indfødte engelsktalende, hvilket får dem til at betegne visse sætninger eller strukturer som forkerte, simpelthen fordi de afviger fra, hvad der anses for at være indfødt engelsk sprogbrug.
Personer, der ikke har engelsk som modersmål, udsættes for potentiel diskrimination
Konsekvenserne af dette er vidtrækkende. Personer, der ikke har engelsk som modersmål, kan møde udfordringer, når de afleverer arbejde via uddannelsesinstitutionernes automatiserede bedømmelsesplatforme.
Derudover kan diskriminerende algoritmer uretfærdigt straffe elever, hvis første sprog ikke er engelsk, og dermed fastholde den sociale ulighed i klasseværelset.
Forfatterne konkluderer: "Vi advarer kraftigt mod brugen af GPT-detektorer i evaluerings- eller undervisningssammenhænge, især når man vurderer arbejde udført af personer, der ikke har engelsk som modersmål."
Men hvorfor bliver AI-detekteringsalgoritmer forpurret af ikke-indfødt engelsk tekst?
AI-detektorer er afhængige af "tekstperpleksitet", et mål for, hvor forudsigeligt en generativ sprogmodel kan forudse det næste ord i en sætning. Lav forvirring indikerer let forudsigelighed, mens høj forvirring afspejler en mindre forudsigelig sætning. Komplekse ord, sætninger, sammenligninger, metaforer og idiomer vil øge forvirringsscoren, hvilket forfattere, der ikke har engelsk som modersmål, måske ikke har.
AI'er har en tendens til at udsende en mere forudsigelig rækkefølge af ord. Mennesker, der bruger almindelige ord i velkendte mønstre, risikerer således, at deres arbejde bliver forvekslet med AI-produceret tekst.
Det gælder selvfølgelig ikke kun tekster, der ikke er skrevet på modersmålet, men også tekster, der er skrevet i en bestemt stil eller på et bestemt læseniveau. For eksempel risikerer tekst, der er designet til at være meget læsbar, at blive markeret.
Ironisk nok brugte forskerne ChatGPT til at omskrive de markerede TOEFL-essays med et mere komplekst sprog, efter at de havde identificeret denne iboende bias.
Når de blev behandlet igen gennem AI-detektorerne, blev alle redigerede essays betegnet som menneskeskrevne. Dette resultat understreger en lidt paradoksal situation - disse detektorer kan utilsigtet opmuntre ikke-indfødte forfattere til at bruge AI mere for at undgå at blive opdaget.
Undervisere er afhængige af mere end AI-detektorer for at slå ned på plagiering. De udfører yderligere skriveopgaver i klasseværelset, ser nærmere på brugen af referencer og deres nøjagtighed og analyserer citater for ægthed.
I mellemtiden er uddannelsesinstitutioner ved at etablere regler for brug og styring af AI, herunder Storbritanniens Russell Group-universiteter, som for nylig udgav en Fælles udtalelse om AI.