Forskere fra University of Reading i Storbritannien gennemførte en blindundersøgelse for at se, om menneskelige undervisere var i stand til at opdage AI-genereret indhold. Resultaterne lover ikke godt for lærerne.
Udviklingen i retning af fjernundervisning har betydet, at mange studentereksaminer gennemføres uden for det traditionelle rum med en skriftlig eksamen og en tilsynsførende, der holder øje med snyd.
Let adgang til avancerede AI-modeller har gjort det nemt for studerende at bruge værktøjer som ChatGPT til at skrive deres kursusopgaver for dem eller hjælpe med at tage onlineeksamener.
Ville en klog universitetsprofessor kunne se, om en studerende brugte AI til at besvare online eksamensspørgsmål?
Lektor Peter Scarfe, en af avisens hovedforfattere, sagde: "Mange institutioner har bevæget sig væk fra traditionelle eksamener for at gøre vurderingen mere inkluderende. Vores forskning viser, at det er af international betydning at forstå, hvordan kunstig intelligens vil påvirke integriteten af uddannelsesvurderinger."
I den "største og mest robuste blindundersøgelse af sin art" sendte forskerne 100% AI skriftlige afleveringer ind i eksamenssystemet i fem bachelormoduler til en bachelorgrad i psykologi.
Bedømmerne af prøverne var helt uvidende om undersøgelsen. Det gjorde eksperimentet til en slags Turing-test i den virkelige verden, hvor en underviser, der ikke råbte "Snyd!" på et papir, troede, at et menneske havde skrevet opgaven.
Sådan her fungerede det:
- Indsendelserne blev oprettet ved hjælp af GPT-4.
- De indsendte i alt 33 AI-genererede eksamensopgaver på tværs af fem moduler.
- Undersøgelsen omfattede både spørgsmål med korte svar (SAQ) og længere essaybaserede spørgsmål.
- Til eksamen bestod afleveringerne af fire svar fra et udvalg af seks spørgsmål, hver med en begrænsning på 200 ord.
- Ved essaybaserede eksamener bestod afleveringerne af et enkelt essay på 1500 ord (de studerende afleverede ét svar ud af et udvalg på enten tre eller fire, afhængigt af modulet).
Forskerne brugte følgende prompts med ChatGPT til henholdsvis SAQ'erne og essays:
- "Besvar følgende spørgsmål med 160 ord, herunder henvisninger til akademisk litteratur, men ikke et separat referenceafsnit: XXX"
- "Inklusive referencer til akademisk litteratur, men ikke et separat referenceafsnit, skal du skrive et essay på 2000 ord, der besvarer følgende spørgsmål: XXX" (de valgte 2.000 ord, da ChatGPT normalt underleverer på ordantal)
- I hver prompt blev XXX erstattet af eksamensspørgsmålet.
Da resultaterne blev opgjort, blev 94% af AI-indsendelserne ikke markeret af bedømmerne. Hvilken slags karakterer opnåede AI-opgaverne?
Forskerne sagde: "De karakterer, der blev givet til vores AI-indleveringer, var i gennemsnit en halv karaktergrænse højere end dem, der blev opnået af rigtige studerende. På tværs af moduler var der en 83,4% chance for, at AI-besvarelserne på et modul ville klare sig bedre end et tilfældigt udvalg af det samme antal rigtige studenterbesvarelser."
Forskerne bemærkede desuden, at deres tilgang sandsynligvis overvurderer muligheden for at opdage brug af AI i den virkelige verden. Som Dr. Scarfe forklarede: "Hvis rigtige studerende snød til en eksamen, ville det være usandsynligt, at de ville vælge en så naivt indlysende tilgang, som vi gjorde."
I praksis kan eleverne bruge AI som udgangspunkt og forfine og tilpasse resultatet, hvilket gør det endnu mere udfordrende at opdage.
Og som om det ikke var nok, så brugte andre studerende sandsynligvis ChatGPT til deres svar ud over forskernes AI-indsendelser. Det betyder, at opdagelsesraten kan være endnu lavere end de registrerede resultater.
Ingen enkle løsninger
Kunne underviserne ikke bare have brugt AI-detektionssoftware? Måske, men ikke med sikkerhed, siger undersøgelsen.
AI-detektorer, som dem, der tilbydes af den populære akademiske plagiat-platform Turnitinhar vist sig at være unøjagtige.
Plus, AI-detektorer risikerer fejlagtigt at anklager personer, der ikke har engelsk som modersmål der er mindre tilbøjelige til at bruge et bestemt ordforråd, idiomer osv., som AI kan se som signaler på menneskelig skrivning.
Da der ikke findes nogen pålidelige metoder til at opdage AI-genereret indhold, står uddannelseslederne tilbage og klør sig i hovedet. Skal brugen af kunstig intelligens forfølges, eller skal den blot være en del af pensum? Skal brugen af AI normaliseres ligesom lommeregneren?
Generelt er der en vis enighed om, at det ikke er uden risiko at integrere AI i uddannelse. I værste fald truer det med at udhule kritisk tænkning og bremse skabelsen af autentisk ny viden.
Professor Karen Yeung advarede mod potentiel "nedprioritering" af studerende, fortæller The Guardian"Der er en reel fare for, at den kommende generation vil ende med at være effektivt bundet til disse maskiner og ikke være i stand til at tænke, analysere eller skrive seriøst uden deres hjælp."
For at bekæmpe AI-misbrug anbefaler Reading-forskerne, at man potentielt bevæger sig væk fra uovervågede hjemmeeksamener til mere kontrollerede miljøer. Det kan indebære en tilbagevenden til traditionelle personlige eksamener eller udvikling af nye, AI-resistente vurderingsformater.
En anden mulighed - og en model for nogle universiteter følger allerede med - udvikler kurser, der lærer de studerende at bruge kunstig intelligens på en kritisk og etisk måde.
Vi er også nødt til at forholde os til den åbenlyse mangel på AI-kendskab blandt undervisere, som denne undersøgelse afslører. Det virker ret sørgeligt.
ChatGPT benytter sig ofte af visse "troper" eller sætningsmønstre, som bliver ret tydelige, når man bliver udsat for dem ofte.
Det ville være interessant at se, hvordan en tutor, der er "trænet" til at genkende AI-skrift, ville klare sig under de samme betingelser.
ChatGPT's eksamensresultater er blandede
Undersøgelsen fra Reading University er ikke den første, der tester AI's evner i akademiske sammenhænge. Forskellige studier har undersøgt AI-præstationer på tværs af forskellige områder og uddannelsesniveauer:
- Medicinske undersøgelser: En gruppe pædiatriske læger testede ChatGPT (GPT-3.5) på neonatal-perinatal eksamen. AI'en scorede kun 46% korrekte svar og klarede sig bedst på spørgsmål om grundlæggende genkaldelse og klinisk ræsonnement, men havde problemer med multilogisk ræsonnement. Interessant nok scorede den højest (78,5%) i afsnittet om etik.
- Finansielle eksamener: Forskere fra JPMorgan Chase & Co. testede GPT-4 til eksamen som Chartered Financial Analyst (CFA). Mens det var usandsynligt, at ChatGPT ville bestå niveau I og II, viste GPT-4 "en god chance", hvis den blev bedt om det. AI-modellerne klarede sig godt i afsnittene om derivater, alternative investeringer og etik, men havde problemer med porteføljestyring og økonomi.
- Eksamen i jura: ChatGPT er blevet testet til advokateksamen og har ofte scoret meget højt.
- Standardiserede tests: AI har klaret sig godt til Graduate Record Examinations (GRE), SAT Reading and Writing og Advanced Placement-eksamener.
- Universitetskurser: En anden undersøgelse satte ChatGPT (model ikke angivet) op mod 32 emner på universitetsniveau og fandt ud af, at det slog eller overgik de studerende på kun 9 ud af 32 eksamener.
Så selv om AI udmærker sig på nogle områder, er det meget forskelligt afhængigt af emnet og den pågældende testtype.
Konklusionen er, at hvis du er en studerende, der ikke har noget imod at snyde, kan du bruge ChatGPT til at få bedre karakterer med kun 6% chance for at blive opdaget. Man må bare elske de odds.
Som forskerne bemærkede, skal de studerendes evalueringsmetoder ændres for at bevare deres akademiske integritet, især når AI-genereret indhold bliver sværere at opdage.
Forskerne tilføjede en humoristisk konklusion til deres artikel.
"Hvis vi sagde, at GPT-4 havde designet en del af denne undersøgelse, foretaget en del af analysen og hjulpet med at skrive manuskriptet, bortset fra de afsnit, hvor vi direkte har citeret GPT-4, hvilke dele af manuskriptet ville du så identificere som skrevet af GPT-4 i stedet for de anførte forfattere?"
Hvis forskerne "snød" ved at bruge AI til at skrive undersøgelsen, hvordan ville du så bevise det?