En ny undersøkelse viser at én av fem allmennleger i Storbritannia bruker AI-verktøy som ChatGPT til å hjelpe til med daglige oppgaver som å foreslå diagnoser og skrive pasientbrev.
Den forskningpublisert i tidsskriftet BMJ Health and Care Informatics, spurte 1006 fastleger i hele verden om deres bruk av AI-chatboter i klinisk praksis.
20% rapporterte at de brukte generative AI-verktøy, med ChatGPT som det mest populære. Av de som brukte kunstig intelligens, sa 29% at de brukte det til å generere dokumentasjon etter pasientavtaler, mens 28% brukte det til å foreslå potensielle diagnoser.
"Disse funnene signaliserer at fastlegene kan ha nytte av disse verktøyene, særlig når det gjelder administrative oppgaver og som støtte for klinisk resonnering", skriver forfatterne av studien.
Dr. Charlotte Blease, hovedforfatter av studien, kommenterte det slik "Til tross for manglende veiledning om disse verktøyene og uklare retningslinjer, rapporterer fastlegene at de bruker dem som en hjelp i jobben. Det medisinske miljøet må finne måter å opplyse både leger og praktikanter om de potensielle fordelene med disse verktøyene når det gjelder å oppsummere informasjon, men også om risikoen for hallusinasjoner, algoritmiske skjevheter og potensialet for å kompromittere pasientenes personvern."
Det siste punktet er avgjørende. Å overføre pasientinformasjon til AI-systemer utgjør sannsynligvis et brudd på personvernet og pasientenes tillit.
Dr. Ellie Mein, medisinsk-juridisk rådgiver i Medical Defence Union, var enig i de viktigste spørsmålene: "I tillegg til de bruksområdene som er identifisert i BMJ-artikkelen, har vi funnet ut at noen leger bruker AI-programmer til å hjelpe dem med å utarbeide klagesvar. Vi har advart MDUs medlemmer om problemene dette reiser, blant annet med hensyn til unøyaktighet og pasientkonfidensialitet. Det er også hensynet til personvern."
Hun legger til: "Når man håndterer pasientklager, kan svar som er utarbeidet av kunstig intelligens, høres troverdige ut, men de kan inneholde unøyaktigheter og henvise til feil retningslinjer, noe som kan være vanskelig å få øye på når de er vevd inn i svært veltalende tekstpassasjer. Det er viktig at legene bruker kunstig intelligens på en etisk forsvarlig måte og overholder relevante retningslinjer og forskrifter."
Vi aner ikke hvor mange artikler OpenAI har brukt til å trene opp modellene sine, men det er helt sikkert mer enn noen lege kan ha lest. Den gir raske, overbevisende svar og er veldig enkel å bruke, i motsetning til å søke i forskningsartikler manuelt.
Betyr det at ChatGPT generelt er nøyaktig når det gjelder klinisk rådgivning? Store språkmodeller (LLM-er) som ChatGPT er forhåndstrenet på enorme mengder generelle data, noe som gjør dem mer fleksible, men tvilsomt nøyaktige for spesifikke medisinske oppgaver.
AI-modeller som ChatGPT kan lett la seg lede, og de støtter ofte brukerens antakelser på en problematisk smiskende måte. I tillegg har forskere bemerket at disse modellene kan vise overdrevent konservative eller snerpete tendenser når de tar opp sensitive temaer som seksuell helse.
Stephen Hughes fra Anglia Ruskin University skrev i The Conservation, “Jeg ba ChatGPT om å diagnostisere smerter ved urinering og utflod fra mannlige kjønnsorganer etter ubeskyttet samleie. Jeg ble fascinert da jeg så at jeg ikke fikk noe svar. Det var som om ChatGPT rødmet på en eller annen sjenert datastyrt måte. Da jeg fjernet omtalen av samleie, ga ChatGPT en differensialdiagnose som inkluderte gonoré, som var den tilstanden jeg hadde i tankene."
De mest kritiske spørsmålene midt oppi alt dette er sannsynligvis Hvor nøyaktig er ChatGPT i medisinsk sammenheng? Og hvor stor kan risikoen for feildiagnostisering eller andre problemer være hvis dette fortsetter?
Generativ AI i medisinsk praksis
Allmennlegene eksperimenterer i økende grad med AI-verktøy, og forskere jobber med å evaluere hvordan disse verktøyene står seg sammenlignet med tradisjonelle diagnostiske metoder.
A studie publisert i Ekspertsystemer med anvendelser gjennomførte en komparativ analyse mellom ChatGPT, konvensjonelle maskinlæringsmodeller og andre AI-systemer for medisinske diagnoser.
Forskerne fant at selv om ChatGPT viste lovende resultater, ble den ofte utkonkurrert av tradisjonelle maskinlæringsmodeller som var spesifikt trent på medisinske datasett. For eksempel oppnådde flerlags perceptron-nevrale nettverk den høyeste nøyaktigheten når det gjaldt å diagnostisere sykdommer basert på symptomer, med en treffsikkerhet på 81% og 94% på to forskjellige datasett.
Forskerne konkluderte med at selv om ChatGPT og lignende AI-verktøy har potensial, "kan svarene deres ofte være tvetydige og ute av kontekst, slik at de gir feil diagnoser, selv om de blir bedt om å gi et svar som bare tar hensyn til et bestemt sett med klasser".
Dette stemmer overens med andre nyere studier som har undersøkt potensialet for kunstig intelligens i medisinsk praksis.
For eksempel, forskning publisert i JAMA Network Open testet GPT-4s evne til å analysere komplekse pasienttilfeller. Selv om den viste lovende resultater på noen områder, gjorde GPT-4 fortsatt feil, og noen av disse kunne være farlige i reelle kliniske situasjoner.
Det finnes imidlertid noen unntak. Ett studie utført av New York Eye and Ear Infirmary of Mount Sinai (NYEE), demonstrerte hvordan GPT-4 kan måle seg med eller overgå menneskelige øyeleger i diagnostisering og behandling av øyesykdommer.
Når det gjelder glaukom, ga GPT-4 svært nøyaktige og detaljerte svar som overgikk svarene fra ekte øyespesialister.
AI-utviklere som OpenAI og NVIDIA trener nå opp spesialiserte medisinske AI-assistenter som skal støtte klinikere og kompensere for mangler i grunnleggende frontier-modeller som GP-4.
OpenAI har allerede inngått et samarbeid med helseteknologiselskapet Color Health for å lage en AI-"copilot" for kreftbehandling, noe som viser hvordan disse verktøyene er i ferd med å bli mer spesifikke for klinisk praksis.
En avveining av fordeler og risiko
Det finnes utallige studier som sammenligner spesialtrente AI-modeller med mennesker når det gjelder å identifisere sykdommer fra diagnostiske bilder som MR- og røntgenbilder.
AI-teknikker har utkonkurrert leger i alt fra kreft og diagnostisering av øyesykdommer til Alzheimers sykdom og Tidlig oppdagelse av Parkinsons sykdom. En AI-modell, kalt "Mia", viste seg å være effektiv når det gjaldt å analysere over 10 000 mammografiscanninger, flagge kjente krefttilfeller og avdekke kreft hos 11 kvinner som legene hadde oversett.
Men disse spesialbygde AI-verktøyene er absolutt ikke det samme som å analysere notater og funn i en generisk språkmodell som ChatGPT og be den om å utlede en diagnose ut fra dette alene.
Likevel er det vanskelig å motstå fristelsen til å gjøre det enkelt og få raske, informative svar.
Det er ingen hemmelighet at helsetjenestene er overbelastet. AI-verktøy sparer tid, og det er det som lokker overveldede leger.
Vi har sett at dette gjenspeiles i hele den offentlige sektoren, for eksempel i utdanningssektoren, der lærere i stor grad bruker kunstig intelligens til å lage materiell, rette arbeid og mer.
Vil legen din analysere notatene dine i ChatGPT og skrive ut en resept basert på resultatene til neste legebesøk? Det er godt mulig. Det er et annet område der det er vanskelig å benekte AI-teknologiens løfte om å spare dyrebar tid.
En del av veien videre vil være å utvikle en kodeks for bruk av kunstig intelligens på legekontoret. British Medical Association har allerede etterlyst klare retningslinjer for integrering av kunstig intelligens i klinisk praksis.
"Det medisinske samfunnet må finne måter å både utdanne leger og praktikanter på og veilede pasienter om trygg bruk av disse verktøyene", konkluderer forfatterne av BMJ-studien.
I tillegg til utdanning vil pågående forskning, klare retningslinjer og en forpliktelse til pasientsikkerhet være avgjørende for å realisere fordelene med kunstig intelligens og samtidig motvirke risikoene. Det blir vanskelig å få det til.