Nieuw onderzoek heeft aangetoond dat AI-detectiesoftware mogelijk vooringenomen is ten opzichte van niet-moedertaalsprekers van het Engels.
De onderzoek suggereerde dat meer dan de helft van de door mensen geschreven essays die niet in hun moedertaal Engels zijn, ten onrechte wordt aangemerkt als door AI gegenereerd. De gevolgen van zulke fout-positieven zijn aanzienlijk, vooral voor studenten en sollicitanten.
In het onderzoek werden zeven veelgebruikte AI-tekstdetectors getest op artikelen die geschreven waren door niet-moedertaalsprekers van het Engels. De resultaten wezen op een hoog percentage fout-positieven, waarbij deze stukken ten onrechte werden geclassificeerd als door AI gegenereerd.
James Zou, assistent-professor biomedische gegevenswetenschappen aan Stanford University, leidde het team dat 91 essays geschreven door niet-moedertaalsprekers van het Engels door zeven populaire GPT-detectoren liet lopen.
Bij deze essays, geschreven voor de wereldwijd erkende TOEFL (Test of English as a Foreign Language), werd meer dan de helft ten onrechte gemarkeerd als door AI gegenereerd. In één geval markeerde een programma zelfs 98% van de essays als door AI gemaakt.
Toen de software daarentegen essays analyseerde die geschreven waren door Engelssprekende achtste klassers uit de VS, werden meer dan 90% correct geïdentificeerd als door mensen gemaakt.
AI-detectors hebben veel kritiek gekregen omdat ze individuen bestraffen met fout-positieven, hoewel sommige aanzienlijk slechter zijn dan andere.
Een van de belangrijkste bevindingen van het onderzoek is dat AI-detectors vaak moeite hebben met het nauwkeurig interpreteren van uitdrukkingen die worden gebruikt door niet-moedertaalsprekers van het Engels.
Deze systemen zijn voornamelijk getraind op gegevens van moedertaalsprekers van het Engels, waardoor ze bepaalde zinnen of structuren als onjuist bestempelen, simpelweg omdat ze afwijken van wat wordt beschouwd als moedertaalsprekers van het Engels.
Niet-moedertaalsprekers van het Engels worden mogelijk gediscrimineerd
De implicaties hiervan zijn verstrekkend. Niet-moedertaalsprekers van het Engels kunnen problemen ondervinden bij het inleveren van werk via geautomatiseerde beoordelingsplatforms die door onderwijsinstellingen worden gebruikt.
Daarnaast kunnen discriminerende algoritmen leerlingen met een andere moedertaal dan Engels onterecht straffen, waardoor sociale ongelijkheid in de klas blijft bestaan.
De auteurs concluderen: "We waarschuwen sterk tegen het gebruik van GPT-detectoren in evaluatieve of educatieve settings, vooral bij het beoordelen van het werk van niet-moedertaalsprekers van het Engels."
Maar waarom worden AI-detectiealgoritmen gedwarsboomd door tekst in een andere taal dan Engels?
AI-detectoren vertrouwen op "tekstperplexiteit", een maat voor hoe voorspelbaar een generatief taalmodel het volgende woord in een zin kan voorspellen. Een lage perplexiteit duidt op een gemakkelijke voorspelling, terwijl een hoge perplexiteit duidt op een minder voorspelbare zin. Complexe woorden, zinnen, vergelijkingen, metaforen en idiomen zorgen voor een hogere perplexiteitsscore, waar schrijvers zonder moedertaal Engels niet altijd over beschikken.
AI's hebben de neiging om een meer voorspelbare opeenvolging van woorden te produceren. Mensen die gewone woorden in bekende patronen gebruiken, lopen dus het risico dat hun werk wordt aangezien voor door AI geproduceerde tekst.
Dit geldt natuurlijk niet alleen voor tekst die niet in de moedertaal geschreven is, maar ook voor tekst die geschreven is in een specifieke stijl of op een specifiek leesniveau. Tekst die ontworpen is om zeer leesbaar te zijn, loopt bijvoorbeeld het risico gemarkeerd te worden.
Ironisch genoeg gebruikten de onderzoekers na het identificeren van deze inherente vooringenomenheid ChatGPT om de gemarkeerde TOEFL-essays te herschrijven met complexere taal.
Eenmaal opnieuw verwerkt door de AI-detectoren, werden alle bewerkte essays bestempeld als door mensen geschreven. Dit resultaat onderstreept een enigszins paradoxale situatie - deze detectoren zouden niet-autochtone schrijvers onbedoeld kunnen aanmoedigen om meer gebruik te maken van AI om aan detectie te ontsnappen.
Leerkrachten vertrouwen op meer dan alleen AI-detectoren om plagiaat tegen te gaan. Ze voeren aanvullende schrijftaken uit in de klas, kijken dieper naar referentiegebruik en de nauwkeurigheid ervan en analyseren citaten op echtheid.
Ondertussen zijn onderwijsinstellingen regels aan het opstellen voor het gebruik en beheer van AI, waaronder de Russell Group van universiteiten in het Verenigd Koninkrijk, die onlangs een gezamenlijke verklaring over AI.