ChatGPT har visat provförmåga och fått samma poäng som studenter på flera utbildningar och andra prov, t.ex. advokatexamen. Men kan det leverera tillfredsställande resultat på medicinska prov?
En grupp barnläkare satte ChatGPT, särskilt modellen GPT-3.5, på prov.
De testade ChatGPT på den neonatal-perinatala styrelseexamen, som är kritisk för barnläkarstudenter. Studien, publicerad i JAMAvisade att ChatGPT version 3.5 endast fick 46% korrekta svar.
ChatGPT:s presterade bäst på frågor med grundläggande minneskunskaper och kliniskt resonemang, men dess begränsningar avslöjades av frågor som krävde multilogiskt resonemang.
Modellen fick lägst poäng, 37,5 procent, inom gastroenterologi och högst poäng, 78,5 procent, inom etik - kanske ironiskt nog.
Studiens huvudförfattare, Andrew Beam, är biträdande professor i biomedicinsk informatik vid Harvard Medical School.
Han påpekade att de snabba framstegen inom AI har varit inget annat än anmärkningsvärda. "Förra året fick plötsligt fem eller sex olika modeller poäng på 80 procent eller mer", sa han och betonade den snabba utvecklingstakten inom området.
Beams fru Kristyn, som är lärare i pediatrik vid Harvard Medical School, deltog också i studien. "Jag ville inte att det skulle gå bra, så ur det perspektivet var jag glad", erkänner hon.
Hon medger dock att det är oundvikligt att AI integreras i sjukvården, vilket vi redan har sett med AI-driven MRT-skanning, diagnostik av ögonsjukdomar, och läkemedelsutvecklingför att bara nämna några av dess växande repertoar av tillämpningar.
"Det är verkligen viktigt att ta reda på hur vi kan föra in detta i den kliniska världen och göra det på ett säkert sätt."
Teamet planerar att genomföra tester med den överlägsna GPT-4 och tillämpa dem på samma neonatal-perinatala och anestesiologiska styrelseprov.
Andrew Beam påpekade också vikten av att veta vilken version av en stor språkmodell man använder, och noterade att den nyare GPT-4 är tillgänglig på abonnemangsbasis, medan den äldre ChatGPT 3.5 fortfarande är fritt tillgänglig.
"De flesta användare kommer troligen att lockas av gratisverktyget och bör ha dess begränsningar i åtanke", säger han. Globalt sett är $20/mo långt ifrån försumbart.
ChatGPT har varit testas på olika prov, inklusive en nyligen genomförd studie som jämförde den med 32 ämnen på examensnivå och fann att den slog eller överträffade studenterna på endast 9/32 prov.
AI har också testats på advokatexamen, Graduate Record Examinations (GRE), SAT Reading and Writing, Advanced Placement-examen och många andraoch får ofta mycket höga poäng.