ChatGPT's pædiatriske undersøgelsesfærdigheder undersøgt af medicinske eksperter

11. september 2023

AI Harvard

ChatGPT har demonstreret sine eksamensfærdigheder ved at score på samme måde som studerende på flere uddannelser og andre prøver, f.eks. advokateksamen. Men kan den levere tilfredsstillende resultater ved medicinske eksamener?

En gruppe børnelæger satte ChatGPT, nærmere bestemt GPT-3.5-modellen, på prøve.

De testede ChatGPT ved den neonatale-perinatale eksamen, som er afgørende for pædiatriske studerende. Undersøgelsen, offentliggjort i JAMAafslørede, at ChatGPT version 3.5 kun scorede 46% korrekte svar.

ChatGPT's klarede sig bedst på spørgsmål om grundlæggende genkaldelse og klinisk ræsonnement, men dens begrænsninger blev afsløret af spørgsmål, der krævede multilogisk ræsonnement.

Specifikt scorede modellen lavest, 37,5 procent, i den gastroenterologiske sektion og højest, 78,5 procent, i etikken - måske ironisk nok. 

Undersøgelsens hovedforfatter, Andrew Beam, er assisterende professor i biomedicinsk informatik ved Harvard Medical School. 

Han påpegede, at de hurtige fremskridt inden for AI har været intet mindre end bemærkelsesværdige. "Der var et øjeblik sidste år, hvor fem eller seks forskellige modeller pludselig alle fik en score på 80 procent eller højere," sagde han og understregede det hurtige tempo, hvormed området udvikler sig.

Beams kone, Kristyn, som underviser i pædiatri på Harvard Medical School, deltog også i undersøgelsen. "Jeg ønskede, at det ikke skulle gå godt, så fra det perspektiv var jeg glad," indrømmede hun. 

Hun anerkender dog, at det er uundgåeligt, at AI bliver en del af sundhedsvæsenet, som vi allerede har set det med AI-drevet MR-scanning, Diagnostik af øjensygdommeog udvikling af lægemidlerfor blot at nævne nogle få af dens voksende repertoire af anvendelsesmuligheder. 

"Det er virkelig vigtigt at finde ud af, hvordan vi kan bringe det ind i den kliniske verden og gøre det på en sikker måde".

Teamet planlægger at udføre tests med den overlegne GPT-4 og anvende dem til de samme neonatal-perinatal- og anæstesiologiske eksamener.

Andrew Beam påpegede også vigtigheden af at vide, hvilken version af en stor sprogmodel man bruger, og bemærkede, at den nyere GPT-4 er tilgængelig på abonnementsbasis, mens den ældre ChatGPT 3.5 stadig er frit tilgængelig.

"De fleste brugere vil sandsynligvis blive tiltrukket af det gratis værktøj og bør huske på dets begrænsninger", siger han. Globalt set er $20/mo langt fra ubetydelig. 

ChatGPT har været testet på forskellige eksamenerherunder en nylig undersøgelse, der satte det op mod 32 emner på universitetsniveau og fandt, at det kun slog eller overgik studerende ved 9/32 eksamener. 

AI er også blevet testet ved advokateksamen, Graduate Record Examinations (GRE), SAT Reading and Writing, Advanced Placement-eksamener og mange andreog scorer ofte meget højt. 

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser