Forskare från University of Reading i Storbritannien genomförde en blindstudie för att se om mänskliga lärare kunde upptäcka AI-genererat innehåll. Resultaten bådar inte gott för lärarna.
Övergången till distansutbildning har lett till att många studentbedömningar genomförs utanför det traditionella utrymmet för en skriftlig tentamen med en övervakare som håller utkik efter fusk.
Tillgången till avancerade AI-modeller har gjort det enkelt för studenter att använda verktyg som ChatGPT för att skriva kursuppgifter åt dem eller hjälpa till vid online-tentor.
Skulle en smart universitetslärare kunna se om en student använde AI för att svara på tentamensfrågor online?
Docent Peter Scarfe, en av de mest tidningens lead authors, säger: "Många institutioner har gått ifrån traditionella prov för att göra bedömningen mer inkluderande. Vår forskning visar att det är av internationell betydelse att förstå hur AI kommer att påverka integriteten i utbildningsbedömningar."
I den "största och mest robusta blindstudien i sitt slag" skickade forskarna in 100% AI skriftliga inlämningar till examinationssystemet i fem grundutbildningsmoduler för en kandidatexamen i psykologi.
De som rättade proven var helt omedvetna om studien. Detta gjorde experimentet till ett slags Turing-test i verkligheten, där en lärare som inte ropade "Fusk!" på ett papper trodde att en människa skrev uppgiften.
Så här gick det till:
- Förslagen skapades med hjälp av GPT-4.
- De skickade in totalt 33 AI-genererade tentamensbidrag i fem moduler.
- Studien omfattade både frågor med korta svar (SAQ) och längre essäbaserade frågor.
- För tentamina bestod inlämningarna av fyra svar från ett urval av sex frågor, var och en med en begränsning på 200 ord.
- För essäbaserade tentamina bestod inlämningarna av en enda essä på 1500 ord (studenterna lämnade in ett svar av ett urval på antingen tre eller fyra, beroende på modul).
Forskarna använde följande uppmaningar med ChatGPT för SAQ:erna respektive uppsatserna:
- "Svara på följande fråga med 160 ord, inklusive referenser till akademisk litteratur men utan separat referensavsnitt: XXX"
- "Inklusive referenser till akademisk litteratur men inte ett separat referensavsnitt, skriv en uppsats på 2000 ord som besvarar följande fråga: XXX" (de valde 2 000 ord eftersom ChatGPT vanligtvis underlevererar på ordantal)
- I varje fråga ersattes XXX av tentamensfrågan.
När resultaten räknades ut blev 94% av AI-inlämningarna oflaggade av markörerna. Vilken typ av betyg fick AI-uppsatserna?
Forskarna sa: "De betyg som tilldelades våra AI-inlämningar var i genomsnitt en halv betygsgräns högre än de som uppnåddes av riktiga studenter. Över moduler fanns det en 83,4% chans att AI-inlämningarna på en modul skulle överträffa ett slumpmässigt urval av samma antal riktiga studentinlämningar."
Forskarna noterade vidare att deras tillvägagångssätt sannolikt överskattar detekterbarheten av AI-användning i verkliga scenarier. Som Dr. Scarfe förklarade, "Om riktiga studenter fuskade i en tentamen, skulle de sannolikt inte ta en så naivt uppenbar strategi som vi gjorde."
I praktiken kan studenterna använda AI som utgångspunkt, förfina och anpassa resultatet, vilket gör det ännu svårare att upptäcka.
Och om det inte var nog, förutom forskarnas AI-inlämningar, använde andra studenter sannolikt ChatGPT för sina svar. Detta innebär att detektionsgraden kan vara ännu lägre än de registrerade resultaten.
Inga enkla lösningar
Kunde inte handledarna helt enkelt ha använt programvara för AI-detektering? Kanske, men inte med säkerhet, enligt studien.
AI-detektorer, som de som erbjuds av den populära akademiska plagiatplattform Turnitinhar visat sig vara felaktiga.
Dessutom riskerar AI-detektorer att felaktigt anklaga personer som inte har engelska som modersmål som är mindre benägna att använda ett visst ordförråd, idiom etc., vilket AI kan se som signaler på mänskligt skrivande.
Eftersom det inte finns några tillförlitliga metoder för att upptäcka AI-genererat innehåll får utbildningsansvariga klia sig i huvudet. Ska användningen av AI förföljas, eller ska den helt enkelt vara en del av kursplanen? Bör användning av AI normaliseras på samma sätt som miniräknare?
Överlag råder det viss enighet om att det inte är riskfritt att integrera AI i utbildningen. I värsta fall hotar det att urholka det kritiska tänkandet och hindra skapandet av autentisk ny kunskap.
Professor Karen Yeung varnade för en potentiell "nedprioritering" av studenter, säger till The Guardian"Det finns en verklig risk för att den kommande generationen kommer att bli effektivt bunden till dessa maskiner och inte kunna ägna sig åt seriöst tänkande, analys eller skrivande utan deras hjälp."
För att bekämpa AI-missbruk rekommenderar Reading-forskare att man potentiellt flyttar bort från oövervakade hemtentor till mer kontrollerade miljöer. Detta kan innebära en återgång till traditionella personliga tentor eller utveckling av nya, AI-resistenta bedömningsformat.
En annan möjlighet - och en modell för vissa universitet redan följer - utvecklar kurser som lär studenter hur man använder AI på ett kritiskt och etiskt sätt.
Vi måste också ta itu med den uppenbara bristen på AI-kunskap bland handledare som framkommit i den här studien. Det verkar ganska sorgligt.
ChatGPT använder sig ofta av vissa "troper" eller meningsmönster som blir ganska uppenbara när man utsätts för dem ofta.
Det skulle vara intressant att se hur en handledare som "tränats" att känna igen AI-skrivande skulle prestera under samma förutsättningar.
ChatGPT:s examensresultat är blandat
Studien från Reading University är inte den första som testar AI:s kapacitet i akademiska miljöer. Olika studier har undersökt AI-prestanda inom olika områden och på olika utbildningsnivåer:
- Läkarundersökningar: En grupp barnläkare testade ChatGPT (GPT-3,5) på den neonatal-perinatal styrelseexamen. AI:n fick bara 46% korrekta svar och presterade bäst på grundläggande minnesfrågor och kliniska resonemang, men hade svårt med multilogiska resonemang. Intressant nog fick den högst poäng (78,5%) i etikavsnittet.
- Finansiella examina: Forskare från JPMorgan Chase & Co. testade GPT-4 på examen för Chartered Financial Analyst (CFA). Medan ChatGPT troligen inte skulle klara nivå I och II, visade GPT-4 "en hyfsad chans" om den uppmanades på rätt sätt. AI-modellerna presterade bra i avsnitten om derivat, alternativa investeringar och etik, men hade problem med portföljförvaltning och ekonomi.
- Juridiska tentor: ChatGPT har testats på advokatexamen för juridik och har ofta fått mycket höga poäng.
- Standardiserade tester: AI har presterat bra på Graduate Record Examinations (GRE), SAT Reading and Writing och Advanced Placement-examen.
- Kurser på universitet: En annan studie ställde ChatGPT (modell inte angiven) mot 32 ämnen på examensnivå och fann att den slog eller överträffade studenterna på endast 9 av 32 tentor.
Så även om AI utmärker sig inom vissa områden är detta mycket varierande beroende på ämne och typ av test i fråga.
Slutsatsen är att om du är en student som inte har något emot att fuska kan du använda ChatGPT för att få bättre betyg med endast 6% chans att åka fast. Du måste älska de oddsen.
Som forskarna påpekade kommer studenternas bedömningsmetoder att behöva ändras för att de ska kunna upprätthålla sin akademiska integritet, särskilt när AI-genererat innehåll blir svårare att upptäcka.
Forskarna lade till en humoristisk slutsats i sin artikel.
"Om vi skulle säga att GPT-4 hade utformat en del av den här studien, gjort en del av analysen och hjälpt till att skriva manuskriptet, förutom de avsnitt där vi direkt har citerat GPT-4, vilka delar av manuskriptet skulle du identifiera som skrivna av GPT-4 snarare än de författare som anges?"
Om forskarna "fuskade" genom att använda AI för att skriva studien, hur skulle du bevisa det?