ChatGPT har vist at de er dyktige til å gjennomføre eksamener, og har oppnådd samme poengsum som studenter på flere studier og andre tester, som for eksempel advokateksamen. Men kan den levere tilfredsstillende resultater på medisinske eksamener?
En gruppe barneleger satte ChatGPT, nærmere bestemt GPT-3.5-modellen, på prøve.
De testet ChatGPT på den neonatal-perinatale eksamenen, som er avgjørende for pediatriske studenter. Studien, publisert i JAMAavslørte at ChatGPT versjon 3.5 bare oppnådde 46% riktige svar.
ChatGPT presterte best på grunnleggende gjenkallingsspørsmål og spørsmål med klinisk resonneringstema, men begrensningene ble avslørt av spørsmål som krevde multilogisk resonnering.
Modellen fikk lavest poengsum, 37,5 prosent, i gastroenterologidelen og høyest poengsum, 78,5 prosent, i etikkdelen - kanskje ironisk nok.
Studiens hovedforfatter, Andrew Beam, er assisterende professor i biomedisinsk informatikk ved Harvard Medical School.
Han påpekte at den raske utviklingen innen kunstig intelligens har vært intet mindre enn bemerkelsesverdig. "I fjor var det et øyeblikk da fem eller seks ulike modeller plutselig fikk en score på 80 prosent eller høyere", sa han, og understreket det raske tempoet som feltet utvikler seg i.
Beams kone, Kristyn, som underviser i pediatri ved Harvard Medical School, deltok også i studien. "Jeg ønsket at det ikke skulle gå bra, så fra det perspektivet var jeg glad", innrømmet hun.
Hun erkjenner imidlertid at det er uunngåelig at kunstig intelligens blir en del av helsevesenet, slik vi allerede har sett med AI-drevet MR-skanning, diagnostikk av øyesykdommer, og utvikling av legemidlerfor bare å nevne noen få av de stadig flere bruksområdene.
"Det er veldig viktig å finne ut hvordan vi kan bringe dette inn i den kliniske verden, og hvordan vi kan gjøre det på en trygg måte."
Teamet planlegger å gjennomføre tester med den overlegne GPT-4 og bruke dem på de samme neonatal-perinatal- og anestesiologieksamenene.
Andrew Beam påpekte også viktigheten av å vite hvilken versjon av en stor språkmodell man bruker, og bemerket at den nyere GPT-4 er tilgjengelig på abonnementsbasis, mens den eldre ChatGPT 3.5 fortsatt er fritt tilgjengelig.
"De fleste brukere vil sannsynligvis bli tiltrukket av gratisverktøyet, og bør ha begrensningene i tankene", sier han. Globalt sett er $20/mo langt fra ubetydelig.
ChatGPT har vært testet på ulike eksamener, inkludert en fersk studie som satte det opp mot 32 emner på gradsnivå, og fant at det slo eller overgikk studentene på bare 9/32 eksamener.
AI har også blitt testet på advokateksamen, Graduate Record Examinations (GRE), SAT Reading and Writing, Advanced Placement-eksamener og mange andreog scorer ofte svært høyt.