Onderzoekers van de Universiteit van Reading in het Verenigd Koninkrijk voerden een blinde studie uit om te zien of menselijke opvoeders in staat waren om AI-gegenereerde inhoud te detecteren. De resultaten voorspellen niet veel goeds voor leerkrachten.
Door de verschuiving naar leren op afstand worden veel beoordelingen van studenten uitgevoerd buiten de traditionele ruimte van een schriftelijk examen met een surveillant die op de uitkijk staat voor spieken.
Eenvoudige toegang tot geavanceerde AI-modellen heeft het voor studenten makkelijk gemaakt om tools als ChatGPT te gebruiken om hun cursusopdrachten voor hen te schrijven of om te helpen bij het maken van online examens.
Zou een slimme universiteitsprofessor kunnen zien of een student AI gebruikt om online examenvragen te beantwoorden?
Universitair hoofddocent Peter Scarfe, een van de krant hoofdauteurs, zei: "Veel instellingen zijn afgestapt van traditionele examens om de beoordeling inclusiever te maken. Ons onderzoek toont aan dat het van internationaal belang is om te begrijpen hoe AI de integriteit van onderwijsevaluaties zal beïnvloeden."
In de "grootste en meest robuuste blinde studie in zijn soort", legden de onderzoekers 1001 schriftelijke inzendingen vanTP3T AI voor aan het examensysteem in vijf undergraduate modules voor een BSc graad in psychologie.
De examinatoren waren helemaal niet op de hoogte van het onderzoek. Dit maakte het experiment tot een soort echte Turingtest, waarbij een docent die geen 'Cheat!' riep op een papier geloofde dat een mens de opdracht had geschreven.
Dit is hoe het werkte:
- De inzendingen zijn gemaakt met GPT-4.
- Ze dienden in totaal 33 AI-gegenereerde exameninzendingen in, verdeeld over vijf modules.
- Het onderzoek omvatte zowel korte antwoordvragen (SAQ's) als langere, op essays gebaseerde vragen.
- Voor de examens bestond de inzending uit vier antwoorden uit een keuze van zes vragen, elk met een limiet van 200 woorden.
- Voor essaygebaseerde examens bestonden de inzendingen uit één essay van 1500 woorden (studenten dienden één antwoord in uit een keuze van drie of vier, afhankelijk van de module).
De onderzoekers gebruikten de volgende prompts met ChatGPT voor respectievelijk de SAQ's en de essays:
- "Beantwoord de volgende vraag in 160 woorden, inclusief verwijzingen naar academische literatuur, maar zonder een apart referentiegedeelte: XXX"
- "Schrijf een essay van 2000 woorden waarin je de volgende vraag beantwoordt, inclusief verwijzingen naar academische literatuur, maar zonder een apart referentiegedeelte: XXX" (ze kozen voor 2000 woorden omdat ChatGPT meestal te weinig woorden levert)
- Bij elke vraag werd XXX vervangen door de examenvraag.
Toen de resultaten werden geteld, werd 94% van de AI-inzendingen niet gemarkeerd door de beoordelaars. Wat voor cijfers behaalden de AI-papers?
De onderzoekers zeiden: "De cijfers die onze AI-inzendingen kregen waren gemiddeld een halve graadgrens hoger dan die van echte studenten. Over alle modules heen was er een kans van 83,4% dat de AI-inzendingen op een module beter zouden presteren dan een willekeurige selectie van hetzelfde aantal echte studenteninzendingen."
De onderzoekers merkten verder op dat hun benadering waarschijnlijk de detecteerbaarheid van AI-gebruik in echte scenario's overschat. Zoals Dr. Scarfe uitlegde: "Als echte studenten zouden spieken tijdens een examen, zouden ze waarschijnlijk niet zo'n naïef voor de hand liggende aanpak kiezen als wij deden."
In de praktijk kunnen studenten AI gebruiken als een startpunt en de output verfijnen en personaliseren, waardoor detectie nog uitdagender wordt.
En alsof dat nog niet genoeg was, gebruikten naast de AI-inzendingen van de onderzoekers waarschijnlijk ook andere studenten ChatGPT voor hun antwoorden. Dit betekent dat het detectiepercentage nog lager zou kunnen zijn dan de geregistreerde resultaten.
Geen eenvoudige oplossingen
Hadden de docenten niet gewoon AI-detectiesoftware kunnen gebruiken? Misschien, maar niet met zekerheid, zegt het onderzoek.
AI-detectoren, zoals die worden aangeboden door de populaire academische plagiaatplatform Turnitinzijn onjuist gebleken.
Bovendien bestaat het risico dat AI-detectors ten onrechte Niet-moedertaalsprekers van het Engels beschuldigen die minder vaak bepaalde woordenschat, idiomen, etc. gebruiken, die AI kan zien als signalen van menselijk schrijven.
Omdat er geen betrouwbare manier is om AI-gegenereerde inhoud te detecteren, krabben onderwijsleiders zich achter de oren. Moet het gebruik van AI worden vervolgd of moet het gewoon deel uitmaken van de syllabus? Moet het gebruik van AI genormaliseerd worden zoals de rekenmachine?
Over het algemeen is men het erover eens dat de integratie van AI in het onderwijs niet zonder risico's is. In het ergste geval dreigt het kritisch denken uit te hollen en de creatie van authentieke nieuwe kennis te belemmeren.
Professor Karen Yeung waarschuwde voor mogelijke "deskilling" van studenten, aan The Guardian"Er bestaat een reëel gevaar dat de komende generatie uiteindelijk aan deze machines gekluisterd zal zijn en niet in staat zal zijn om serieus na te denken, te analyseren of te schrijven zonder hun hulp."
Om AI-misbruik tegen te gaan, raden de onderzoekers van Reading aan om mogelijk over te stappen van examens zonder toezicht naar meer gecontroleerde omgevingen. Dit kan een terugkeer naar traditionele persoonlijke examens inhouden of de ontwikkeling van nieuwe, AI-bestendige toetsvormen.
Een andere mogelijkheid - en een model dat sommige universiteiten volgen al - ontwikkelt cursussen die studenten leren hoe ze AI kritisch en ethisch kunnen gebruiken.
We moeten ook het duidelijke gebrek aan AI-geletterdheid onder tutoren aanpakken dat uit dit onderzoek naar voren komt. Het lijkt erbarmelijk.
ChatGPT neemt vaak zijn toevlucht tot bepaalde 'tropen' of zinspatronen die heel duidelijk worden als je er vaak aan wordt blootgesteld.
Het zou interessant zijn om te zien hoe een tutor die 'getraind' is om AI-schrijven te herkennen, zou presteren onder dezelfde omstandigheden.
Het examenrecord van ChatGPT is gemengd
De studie van de universiteit van Reading is niet de eerste die de capaciteiten van AI in een academische omgeving test. Verschillende onderzoeken hebben de prestaties van AI in verschillende vakgebieden en opleidingsniveaus onderzocht:
- Medische onderzoeken: Een groep kinderartsen testte ChatGPT (GPT-3.5) op de neonataal-perinataal bord-examen. De AI scoorde slechts 46% correcte antwoorden en presteerde het best op vragen over basic recall en klinisch redeneren, maar had moeite met multi-logisch redeneren. Interessant genoeg scoorde de AI het hoogst (78,5%) op het onderdeel ethiek.
- Financiële examens: Onderzoekers van JPMorgan Chase & Co. testten GPT-4 op het examen voor Chartered Financial Analyst (CFA). Terwijl ChatGPT waarschijnlijk niet zou slagen voor Niveau I en II, toonde GPT-4 "een redelijke kans" als het op de juiste manier werd gevraagd. De AI-modellen presteerden goed in derivaten, alternatieve beleggingen en ethische secties, maar hadden moeite met portefeuillebeheer en economie.
- Examens Rechten: ChatGPT is getest op het advocatuurexamen en scoort vaak zeer hoog.
- Gestandaardiseerde tests: De AI heeft goed gepresteerd op Graduate Record Examinations (GRE), SAT Reading and Writing en Advanced Placement examens.
- Universitaire cursussen: In een ander onderzoek werd ChatGPT (model niet gegeven) vergeleken met 32 onderwerpen op het niveau van de graad en werd vastgesteld dat het de studenten versloeg of overtrof. op slechts 9 van de 32 examens.
Dus hoewel AI op sommige gebieden uitblinkt, is dit zeer variabel, afhankelijk van het onderwerp en het type test in kwestie.
De conclusie is dat als je een student bent die het niet erg vindt om vals te spelen, je ChatGPT kunt gebruiken om betere cijfers te halen met slechts 6% kans om betrapt te worden. Je moet wel van die kansen houden.
Zoals onderzoekers opmerkten, zullen de beoordelingsmethoden van studenten moeten veranderen om hun academische integriteit te behouden, vooral omdat AI-gegenereerde inhoud moeilijker te detecteren wordt.
De onderzoekers voegden een humoristische conclusie toe aan hun artikel.
"Als we zouden zeggen dat GPT-4 een deel van dit onderzoek heeft ontworpen, een deel van de analyse heeft gedaan en heeft geholpen bij het schrijven van het manuscript, anders dan de delen waar we GPT-4 gericht hebben geciteerd, welke delen van het manuscript zou je dan identificeren als geschreven door GPT-4 in plaats van de genoemde auteurs?"
Als de onderzoekers "vals speelden" door AI te gebruiken om het onderzoek te schrijven, hoe zou je dat dan bewijzen?