En ny undersøgelse har vist, at en ud af fem praktiserende læger i Storbritannien bruger AI-værktøjer som ChatGPT til at hjælpe med daglige opgaver som at foreslå diagnoser og skrive patientbreve.
Den forskningsom er offentliggjort i tidsskriftet BMJ Health and Care Informatics, har spurgt 1.006 praktiserende læger i hele verden om deres brug af AI-chatbots i klinisk praksis.
Omkring 20% rapporterede, at de brugte generative AI-værktøjer, hvor ChatGPT var det mest populære. Af dem, der brugte AI, sagde 29%, at de brugte det til at generere dokumentation efter patientaftaler, mens 28% brugte det til at foreslå potentielle diagnoser.
"Disse resultater signalerer, at praktiserende læger kan få værdi af disse værktøjer, især i forbindelse med administrative opgaver og til støtte for klinisk ræsonnering", bemærkede forfatterne til undersøgelsen.
Som Dr. Charlotte Blease, hovedforfatter til undersøgelsen, kommenterede: "På trods af manglende vejledning om disse værktøjer og uklare arbejdspolitikker rapporterer praktiserende læger, at de bruger dem til at hjælpe med deres arbejde. Det medicinske samfund bliver nødt til at finde måder til både at uddanne læger og praktikanter om de potentielle fordele ved disse værktøjer til at opsummere information, men også risiciene i form af hallucinationer, algoritmiske bias og potentialet til at kompromittere patienternes privatliv."
Det sidste punkt er afgørende. At videregive patientoplysninger til AI-systemer udgør sandsynligvis en krænkelse af privatlivets fred og patienternes tillid.
Dr. Ellie Mein, medicinsk-juridisk rådgiver i Medical Defence Union, var enig i de centrale spørgsmål: "Sammen med de anvendelser, der er identificeret i BMJ-artiklen, har vi fundet ud af, at nogle læger bruger AI-programmer til at hjælpe med at udarbejde klagesvar for dem. Vi har advaret MDU-medlemmerne om de problemer, det rejser, herunder unøjagtigheder og patientfortrolighed. Der er også overvejelser om databeskyttelse."
Hun tilføjede: "Når man behandler patientklager, kan AI-udarbejdede svar lyde plausible, men de kan indeholde unøjagtigheder og henvise til forkerte retningslinjer, som kan være svære at få øje på, når de er flettet ind i meget veltalende tekstpassager. Det er vigtigt, at læger bruger kunstig intelligens på en etisk måde og overholder relevante retningslinjer og regler."
Vi aner ikke, hvor mange artikler OpenAI har brugt til at træne deres modeller, men det er i hvert fald mere, end nogen læge kan have læst. Den giver hurtige, overbevisende svar og er meget nem at bruge i modsætning til at søge i forskningsartikler manuelt.
Betyder det, at ChatGPT generelt er nøjagtig til klinisk rådgivning? Nej. Store sprogmodeller (LLM'er) som ChatGPT er forudtrænet på store mængder generelle data, hvilket gør dem mere fleksible, men tvivlsomt nøjagtige til specifikke medicinske opgaver.
AI-modeller som ChatGPT kan let lade sig lede og ofte tage parti for brugerens antagelser på en problematisk smiskende måde. Derudover har forskere bemærket, at disse modeller kan udvise alt for konservative eller snerpede tendenser, når de behandler følsomme emner som f.eks. seksuel sundhed.
Stephen Hughes fra Anglia Ruskin University skrev i The Conservation, “Jeg bad ChatGPT om at diagnosticere smerter ved vandladning og udflåd fra de mandlige kønsorganer efter ubeskyttet samleje. Jeg var fascineret over at se, at jeg ikke fik noget svar. Det var, som om ChatGPT rødmede på en eller anden genert computeriseret måde. Da jeg fjernede omtalen af samleje, gav ChatGPT en differentialdiagnose, som omfattede gonoré, hvilket var den tilstand, jeg havde i tankerne."
De mest kritiske spørgsmål midt i alt dette er nok: Hvor præcis er ChatGPT i en medicinsk sammenhæng? Og hvor stor er risikoen for fejldiagnoser eller andre problemer, hvis dette fortsætter?
Generativ AI i medicinsk praksis
Mens praktiserende læger i stigende grad eksperimenterer med AI-værktøjer, arbejder forskere på at evaluere, hvordan de kan sammenlignes med traditionelle diagnostiske metoder.
A undersøgelse udgivet i Ekspertsystemer med applikationer gennemførte en sammenlignende analyse mellem ChatGPT, konventionelle maskinlæringsmodeller og andre AI-systemer til medicinske diagnoser.
Forskerne fandt ud af, at selv om ChatGPT var lovende, blev den ofte overgået af traditionelle maskinlæringsmodeller, der var specifikt trænet på medicinske datasæt. For eksempel opnåede neurale netværk med flere lag perceptron den højeste nøjagtighed i diagnosticering af sygdomme baseret på symptomer, med satser på 81% og 94% på to forskellige datasæt.
Forskerne konkluderede, at selvom ChatGPT og lignende AI-værktøjer viser potentiale, "kan deres svar ofte være tvetydige og ude af kontekst, så de giver forkerte diagnoser, selv hvis de bliver bedt om at give et svar, der kun tager højde for et bestemt sæt klasser."
Dette stemmer overens med andre nylige studier, der undersøger AI's potentiale i medicinsk praksis.
For eksempel, forskning udgivet i JAMA Network Open testede GPT-4's evne til at analysere komplekse patientcases. Selv om den viste lovende resultater på nogle områder, lavede GPT-4 stadig fejl, hvoraf nogle kunne være farlige i virkelige kliniske scenarier.
Der er dog nogle undtagelser. Den ene undersøgelse udført af New York Eye and Ear Infirmary of Mount Sinai (NYEE) viste, hvordan GPT-4 kan leve op til eller overgå menneskelige øjenlæger i diagnosticering og behandling af øjensygdomme.
For grøn stær gav GPT-4 meget præcise og detaljerede svar, der overgik dem fra rigtige øjenlæger.
AI-udviklere som OpenAI og NVIDIA uddanner nu specialiserede medicinske AI-assistenter til at støtte klinikere og kompensere for manglerne i basismodeller som GP-4.
OpenAI har allerede indgået et samarbejde med sundhedsteknologisk virksomhed Color Health for at skabe en AI-"copilot" til kræftbehandling, hvilket viser, hvordan disse værktøjer bliver mere specifikke for klinisk praksis.
Afvejning af fordele og risici
Der findes utallige undersøgelser, der sammenligner specialtrænede AI-modeller med mennesker, når det gælder om at identificere sygdomme ud fra diagnostiske billeder som MR og røntgen.
AI-teknikker har udkonkurreret læger i alt fra kræft og diagnosticering af øjensygdomme til Alzheimers og Tidlig opdagelse af Parkinsons sygdom. En AI-model ved navn "Mia" viste sig at være effektiv til at analysere over 10.000 mammografiscanninger, udpege kendte kræfttilfælde og afsløre kræft hos 11 kvinder, som lægerne havde overset.
Men disse specialbyggede AI-værktøjer er bestemt ikke det samme som at analysere noter og fund i en generisk sprogmodel som ChatGPT og bede den om at udlede en diagnose alene ud fra det.
Ikke desto mindre er det svært at modstå fristelsen til at gøre det nemt og få hurtige, informative svar.
Det er ingen hemmelighed, at sundhedsvæsenet er overbebyrdet. AI-værktøjer sparer tid, så tiltrækkende er de for overvældede læger.
Vi har set dette afspejlet i hele den offentlige sektor, f.eks. inden for uddannelse, hvor lærere i vid udstrækning bruger AI til at skabe materialer, rette arbejde og meget mere.
Så vil din læge analysere dine noter i ChatGPT og skrive en recept baseret på resultaterne til dit næste lægebesøg? Det er meget muligt. Det er et andet område, hvor AI-teknologiens løfte om at spare dyrebar tid er svært at benægte.
En del af vejen frem vil være at udvikle en kodeks for brug af kunstig intelligens på lægens kontor. Den britiske lægeforening har allerede opfordret til klare politikker for integration af AI i klinisk praksis.
"Det medicinske samfund bliver nødt til at finde måder, hvorpå man både kan uddanne læger og praktikanter og vejlede patienter om sikker anvendelse af disse værktøjer", konkluderer forfatterne til BMJ-undersøgelsen.
Ud over uddannelse vil løbende forskning, klare retningslinjer og en forpligtelse til patientsikkerhed være afgørende for at realisere AI's fordele og samtidig udligne risici. Det bliver svært at gøre rigtigt.