Forskere fra University of Reading i Storbritannia gjennomførte en blindstudie for å se om menneskelige lærere var i stand til å oppdage AI-generert innhold. Resultatene lover ikke godt for lærerne.
Overgangen til fjernundervisning har ført til at mange studentevalueringer gjennomføres utenfor det tradisjonelle rommet for en skriftlig eksamen med en eksamensvakt på utkikk etter fusk.
Tilgangen til avanserte AI-modeller har gjort det enkelt for studenter å bruke verktøy som ChatGPT til å skrive kursoppgaver for dem eller hjelpe dem med å ta eksamener på nett.
Ville en smart universitetsprofessor kunne se om en student brukte kunstig intelligens til å svare på eksamensoppgaver på nettet?
Førsteamanuensis Peter Scarfe, en av avisens hovedforfatterne, sier: "Mange institusjoner har gått bort fra tradisjonelle eksamener for å gjøre vurderingene mer inkluderende. Forskningen vår viser at det er av internasjonal betydning å forstå hvordan kunstig intelligens vil påvirke integriteten til utdanningsvurderinger."
I den "største og mest robuste blindstudien i sitt slag" sendte forskerne inn 100% AI-innleveringer til eksamenssystemet i fem moduler på bachelorgraden i psykologi.
Sensorene på eksamenene var helt uvitende om studien. Dette gjorde eksperimentet til en slags Turing-test i den virkelige verden, der en lærer som ikke ropte "Jukse!" på en oppgave, trodde at det var et menneske som hadde skrevet oppgaven.
Slik fungerte det:
- Innsendingene ble laget ved hjelp av GPT-4.
- De leverte inn totalt 33 AI-genererte eksamensoppgaver fordelt på fem moduler.
- Studien inkluderte både kortsvarsspørsmål (SAQ) og lengre essaybaserte spørsmål.
- Til eksamen bestod innleveringene av fire svar fra et utvalg av seks spørsmål, hver med en begrensning på 200 ord.
- For essaybaserte eksamener besto innleveringene av ett enkelt essay på 1500 ord (studentene leverte inn ett svar av tre eller fire mulige, avhengig av modul).
Forskerne brukte følgende spørsmål med ChatGPT for henholdsvis SAQ-ene og essayene:
- "Svar på følgende spørsmål med 160 ord, inkludert referanser til faglitteratur, men uten en egen referansedel: XXX"
- "Skriv et essay på 2000 ord som besvarer følgende spørsmål, inkludert referanser til akademisk litteratur, men ikke en egen referansedel: XXX" (de valgte 2000 ord, ettersom ChatGPT vanligvis underleverer på antall ord)
- I hver ledetekst ble XXX erstattet av eksamensspørsmålet.
Da resultatene ble talt opp, ble 94% av AI-innleveringene ikke markert av sensorene. Hva slags karakterer oppnådde AI-oppgavene?
Forskerne sa: "Karakterene som ble gitt til AI-innleveringene våre, var i gjennomsnitt en halv karaktergrense høyere enn det som ble oppnådd av ekte studenter. På tvers av modulene var det 83,4% sjanse for at AI-innleveringene på en modul ville gi bedre resultater enn et tilfeldig utvalg av det samme antallet reelle studentinnleveringer."
Forskerne bemerket videre at deres tilnærming sannsynligvis overvurderer muligheten for å oppdage bruk av AI i virkelige scenarier. Som Dr. Scarfe forklarte: "Hvis ekte studenter jukset på en eksamen, ville de sannsynligvis ikke valgt en så naivt åpenbar tilnærming som vi gjorde."
I praksis kan studentene bruke AI som et utgangspunkt, og raffinere og tilpasse resultatet, noe som gjør detektering enda mer utfordrende.
Og som om ikke det var nok, er det sannsynlig at andre studenter, i tillegg til forskernes AI-innleveringer, har brukt ChatGPT til å svare. Dette betyr at deteksjonsraten kan være enda lavere enn de registrerte resultatene.
Ingen enkle løsninger
Kunne ikke veilederne rett og slett ha brukt programvare for AI-deteksjon? Kanskje, men ikke med sikkerhet, ifølge studien.
AI-detektorer, som de som tilbys av den populære akademiske plagiatplattformen Turnitinhar vist seg å være unøyaktige.
I tillegg risikerer AI-detektorer å feilaktig anklager personer som ikke har engelsk som morsmål som er mindre tilbøyelige til å bruke et visst ordforråd, idiomer osv. som AI kan se på som signaler på menneskelig skriving.
Uten pålitelige metoder for å oppdage AI-generert innhold, må utdanningsledere klø seg i hodet. Bør bruken av kunstig intelligens forfølges, eller bør den rett og slett være en del av pensum? Bør bruk av kunstig intelligens normaliseres på samme måte som kalkulatoren?
Det er en viss enighet om at det ikke er risikofritt å integrere kunstig intelligens i utdanningen. I verste fall truer det med å undergrave kritisk tenkning og hemme skapelsen av autentisk ny kunnskap.
Professor Karen Yeung advarte mot en potensiell "nedprioritering" av studenter, sier til The Guardian"Det er en reell fare for at den kommende generasjonen vil ende opp med å bli bundet til disse maskinene og ikke være i stand til å tenke, analysere eller skrive seriøst uten deres hjelp."
For å bekjempe misbruk av kunstig intelligens anbefaler Reading-forskerne at man potensielt kan gå bort fra hjemmeeksamener uten tilsyn og over til mer kontrollerte miljøer. Dette kan innebære en tilbakevending til tradisjonelle personlige eksamener eller utvikling av nye, AI-resistente vurderingsformater.
En annen mulighet - og en modell noen universiteter følger allerede - utvikler kurs som lærer studentene å bruke kunstig intelligens på en kritisk og etisk måte.
Vi må også ta et oppgjør med den åpenbare mangelen på AI-kompetanse blant veiledere som denne studien har avdekket. Det virker ganske bedrøvelig.
ChatGPT tyr ofte til visse "troper" eller setningsmønstre som blir ganske åpenbare når du blir utsatt for dem ofte.
Det hadde vært interessant å se hvordan en veileder som er "opplært" til å gjenkjenne AI-skriving, ville prestere under de samme forholdene.
ChatGPTs eksamensresultater er blandet
Studien fra Reading University er ikke den første som tester AIs evner i akademiske miljøer. Flere studier har undersøkt AI-ytelse på tvers av ulike fagområder og utdanningsnivåer:
- Medisinske undersøkelser: En gruppe barneleger testet ChatGPT (GPT-3.5) på neonatal-perinatal eksamen. AI-en fikk bare 46% riktige svar, og presterte best på grunnleggende hukommelse og kliniske resonneringsspørsmål, men slet med multilogisk resonnering. Interessant nok fikk den høyest poengsum (78,5%) i etikkdelen.
- Finansielle eksamener: Forskere fra JPMorgan Chase & Co. testet GPT-4 på eksamen til Chartered Financial Analyst (CFA). Mens ChatGPT neppe ville bestå nivå I og II, viste GPT-4 "en anstendig sjanse" hvis den ble bedt om å gjøre det på riktig måte. AI-modellene presterte godt i derivater, alternative investeringer og etikk, men slet med porteføljeforvaltning og økonomi.
- Juridiske eksamener: ChatGPT har blitt testet på advokateksamen, og har ofte oppnådd svært høye poengsummer.
- Standardiserte tester: AI har gjort det bra på Graduate Record Examinations (GRE), SAT Reading and Writing og Advanced Placement-eksamener.
- Universitetskurs: I en annen studie ble ChatGPT (modell ikke oppgitt) satt opp mot 32 emner på gradsnivå, og det viste seg at det slo eller overgikk studentenes på bare 9 av 32 eksamener.
Så selv om AI utmerker seg på noen områder, er dette svært varierende avhengig av hvilket fag og hvilken type test det er snakk om.
Konklusjonen er at hvis du er en student som ikke har noe imot å jukse, kan du bruke ChatGPT til å få bedre karakterer med bare 6% sjanse for å bli tatt. Det er jo en fantastisk odds.
Som forskerne bemerket, må studentenes vurderingsmetoder endres for å opprettholde den akademiske integriteten, særlig ettersom AI-generert innhold blir vanskeligere å oppdage.
Forskerne la til en humoristisk konklusjon i artikkelen sin.
"Hvis vi skulle si at GPT-4 hadde designet deler av denne studien, gjort deler av analysen og hjulpet til med å skrive manuskriptet, bortsett fra de avsnittene der vi direkte har sitert GPT-4, hvilke deler av manuskriptet ville du da identifisere som skrevet av GPT-4 i stedet for de forfatterne som er oppført?"
Hvis forskerne "jukset" ved å bruke kunstig intelligens til å skrive studien, hvordan vil du bevise det?