En ny undersökning visar att en av fem allmänläkare i Storbritannien använder AI-verktyg som ChatGPT för att hjälpa till med dagliga uppgifter som att föreslå diagnoser och skriva patientbrev.
Den forskningsom publicerades i tidskriften BMJ Health and Care Informatics, tillfrågades 1 006 allmänläkare i hela USA om deras användning av AI-chattbottar i klinisk praxis.
Omkring 20% rapporterade att de använde generativa AI-verktyg, varav ChatGPT var det mest populära. Av dem som använde AI uppgav 29% att de använde det för att generera dokumentation efter patientmöten, medan 28% använde det för att föreslå potentiella diagnoser.
"Dessa resultat visar att allmänläkare kan ha nytta av dessa verktyg, särskilt när det gäller administrativa uppgifter och som stöd för kliniska resonemang", säger författarna till studien.
Dr Charlotte Blease, huvudförfattare till studien, kommenterade: "Trots brist på vägledning om dessa verktyg och oklara arbetspolicyer rapporterar allmänläkare att de använder dem för att underlätta sitt arbete. Det medicinska samfundet kommer att behöva hitta sätt att både utbilda läkare och praktikanter om de potentiella fördelarna med dessa verktyg när det gäller att sammanfatta information, men också riskerna i form av hallucinationer, algoritmiska fördomar och potentialen att äventyra patienternas integritet."
Den sista punkten är avgörande. Att överföra patientinformation till AI-system utgör sannolikt ett brott mot sekretessen och patienternas förtroende.
Dr Ellie Mein, medicinsk-juridisk rådgivare vid Medical Defence Union, höll med om de viktigaste frågorna: "Förutom de användningsområden som identifieras i BMJ-papperet har vi funnit att vissa läkare vänder sig till AI-program för att hjälpa till att utarbeta klagomålssvar åt dem. Vi har varnat MDU-medlemmar om de frågor som detta väcker, inklusive felaktigheter och patientsekretess. Det finns också överväganden om dataskydd."
Hon tillade: "När man hanterar patientklagomål kan AI-utformade svar låta rimliga men kan innehålla felaktigheter och hänvisa till felaktiga riktlinjer som kan vara svåra att upptäcka när de vävs in i mycket vältaliga textpassager. Det är viktigt att läkare använder AI på ett etiskt sätt och följer relevanta riktlinjer och bestämmelser."
Vi har ingen aning om hur många artiklar OpenAI använde för att träna sina modeller, men det är säkert fler än någon läkare kan ha läst. Den ger snabba, övertygande svar och är mycket enkel att använda, till skillnad från att söka efter forskningsartiklar manuellt.
Betyder det att ChatGPT generellt sett är korrekt för klinisk rådgivning? Nej. Stora språkmodeller (LLM) som ChatGPT är förtränade på stora mängder allmänna data, vilket gör dem mer flexibla men tveksamt exakta för specifika medicinska uppgifter.
AI-modeller som ChatGPT kan vara lättledda och ofta ställa sig bakom användarens antaganden på ett problematiskt inställsamt sätt. Dessutom har forskare noterat att dessa modeller kan uppvisa alltför konservativa eller pryda tendenser när de tar upp känsliga ämnen som sexuell hälsa.
Stephen Hughes från Anglia Ruskin University skrev i The Conservation, “Jag bad ChatGPT att diagnostisera smärta vid urinering och en urladdning från de manliga könsorganen efter oskyddat samlag. Jag blev fascinerad av att se att jag inte fick något svar. Det var som om ChatGPT rodnade på något blygt datoriserat sätt. När jag tog bort omnämnandet av samlag gav ChatGPT en differentialdiagnos som inkluderade gonorré, vilket var det tillstånd jag hade i åtanke."
Förmodligen är de mest kritiska frågorna mitt i allt detta: Hur korrekt är ChatGPT i ett medicinskt sammanhang? Och hur stora kan riskerna för feldiagnoser eller andra problem vara om detta fortsätter?
Generativ AI i medicinsk praxis
I takt med att allmänläkare i allt högre grad experimenterar med AI-verktyg arbetar forskare med att utvärdera hur de står sig i jämförelse med traditionella diagnostiska metoder.
A studie publicerad i Expertsystem med tillämpningar genomförde en jämförande analys mellan ChatGPT, konventionella maskininlärningsmodeller och andra AI-system för medicinska diagnoser.
Forskarna fann att ChatGPT visserligen var lovande, men att det ofta överträffades av traditionella maskininlärningsmodeller som specifikt tränats på medicinska dataset. Till exempel uppnådde neurala nätverk med flerskiktsperceptron den högsta noggrannheten vid diagnostisering av sjukdomar baserat på symtom, med 81% och 94% på två olika dataset.
Forskarna drog slutsatsen att även om ChatGPT och liknande AI-verktyg visar potential, "kan deras svar ofta vara tvetydiga och ur sitt sammanhang, så att de ger felaktiga diagnoser, även om de ombeds att ge ett svar som endast beaktar en viss uppsättning klasser".
Detta ligger i linje med andra nyligen genomförda studier som undersöker AI:s potential inom medicinsk praxis.
Till exempel, forskning publicerad i JAMA Network Open testade GPT-4:s förmåga att analysera komplexa patientfall. GPT-4 visade lovande resultat på vissa områden, men innehöll fortfarande fel som i vissa fall kan vara farliga i verkliga kliniska situationer.
Det finns dock några undantag. Ett studie som genomfördes av New York Eye and Ear Infirmary of Mount Sinai (NYEE) visade hur GPT-4 kan mäta sig med eller överträffa mänskliga ögonläkares förmåga att diagnostisera och behandla ögonsjukdomar.
När det gäller glaukom gav GPT-4 mycket exakta och detaljerade svar som överträffade dem från riktiga ögonspecialister.
AI-utvecklare som OpenAI och NVIDIA utbildar nu specialiserade medicinska AI-assistenter för att stödja kliniker och kompensera för brister i basmodeller som GP-4.
OpenAI har redan samarbetat med hälsoteknikföretaget Color Health för att skapa en AI-"copilot" för cancervård, vilket visar hur dessa verktyg kommer att bli mer specifika för klinisk praxis.
Vägning av fördelar och risker
Det finns otaliga studier som jämför specialtränade AI-modeller med människor när det gäller att identifiera sjukdomar från diagnostiska bilder som MR och röntgen.
AI-tekniker har överträffat läkare i allt från cancer och diagnos av ögonsjukdomar till Alzheimers sjukdom och Tidig upptäckt av Parkinsons sjukdom. En AI-modell, kallad "Mia", visade sig vara effektiv när den analyserade över 10.000 mammografiundersökningar, flaggade för kända cancerfall och upptäckte cancer hos 11 kvinnor som läkarna hade missat.
Men dessa specialbyggda AI-verktyg är verkligen inte samma sak som att analysera anteckningar och resultat i en generisk språkmodell som ChatGPT och be den härleda en diagnos enbart utifrån detta.
Men det är svårt att motstå frestelsen att göra det enkelt och få snabba, informativa svar.
Det är ingen hemlighet att sjukvården är överbelastad. AI-verktyg sparar tid, så lockande är de för överbelastade läkare.
Vi har sett detta återspeglas i hela den offentliga sektorn, till exempel inom utbildning, där lärare i stor utsträckning använder AI för att skapa material, bedöma arbete och mycket mer.
Så, kommer din läkare att analysera dina anteckningar i ChatGPT och skriva ut ett recept baserat på resultaten för ditt nästa läkarbesök? Det är mycket möjligt. Det är ett annat område där AI-teknikens löfte om att spara dyrbar tid är svårt att förneka.
En del av vägen framåt kommer att vara att utveckla en kod för användning av AI på läkarmottagningen. British Medical Association har redan efterlyst en tydlig policy för hur AI ska integreras i den kliniska verksamheten.
"Det medicinska samfundet kommer att behöva hitta sätt att både utbilda läkare och praktikanter och vägleda patienter om säker användning av dessa verktyg", avslutar författarna till BMJ-studien.
Förutom utbildning kommer pågående forskning, tydliga riktlinjer och ett engagemang för patientsäkerhet att vara avgörande för att förverkliga AI:s fördelar och samtidigt kompensera för riskerna. Det kommer att bli svårt att göra rätt.