Uit een nieuw onderzoek blijkt dat een op de vijf huisartsen in het Verenigd Koninkrijk AI-tools zoals ChatGPT gebruikt om te helpen bij dagelijkse taken zoals het voorstellen van diagnoses en het schrijven van patiëntenbrieven.
De onderzoekgepubliceerd in het tijdschrift BMJ Health and Care Informatics, ondervroeg 1.006 huisartsen uit de hele wereld over hun gebruik van AI-chatbots in de klinische praktijk.
Zo'n 20% gaven aan gebruik te maken van generatieve AI-tools, waarbij ChatGPT het populairst was. Van degenen die AI gebruikten, gaven 29% aan dat ze het gebruikten om documentatie te genereren na afspraken met patiënten, terwijl 28% het gebruikten om mogelijke diagnoses voor te stellen.
"Deze bevindingen geven aan dat huisartsen waarde kunnen ontlenen aan deze hulpmiddelen, met name bij administratieve taken en ter ondersteuning van klinisch redeneren," merkten de auteurs van het onderzoek op.
Dr. Charlotte Blease, hoofdauteur van het onderzoek, zei hierover het volgende: "Ondanks een gebrek aan richtlijnen over deze hulpmiddelen en een onduidelijk werkbeleid, melden huisartsen dat ze ze gebruiken om te helpen bij hun werk. De medische gemeenschap zal manieren moeten vinden om artsen en stagiairs te informeren over de potentiële voordelen van deze hulpmiddelen bij het samenvatten van informatie, maar ook over de risico's op het gebied van hallucinaties, algoritmische vertekeningen en het potentieel om de privacy van patiënten in gevaar te brengen."
Dat laatste is essentieel. Het doorgeven van patiëntgegevens aan AI-systemen is waarschijnlijk een schending van de privacy en het vertrouwen van de patiënt.
Dr. Ellie Mein, medisch-juridisch adviseur bij de Medical Defence Union, is het eens over de belangrijkste punten: "Naast de toepassingen die in het BMJ-paper worden genoemd, hebben we gemerkt dat sommige artsen zich tot AI-programma's wenden om hen te helpen bij het opstellen van antwoorden op klachten. We hebben MDU-leden gewaarschuwd voor de problemen die dit met zich meebrengt, waaronder onnauwkeurigheid en vertrouwelijkheid van patiënten. Er zijn ook overwegingen met betrekking tot gegevensbescherming.
Ze voegde eraan toe: "Bij de behandeling van klachten van patiënten kunnen antwoorden die door AI zijn opgesteld plausibel klinken, maar onnauwkeurigheden bevatten en verwijzen naar onjuiste richtlijnen die moeilijk te herkennen kunnen zijn wanneer ze in zeer welsprekende tekstpassages zijn verweven. Het is van vitaal belang dat artsen AI op een ethische manier gebruiken en zich houden aan de relevante richtlijnen en regelgeving."
We hebben geen idee hoeveel artikelen OpenAI heeft gebruikt om hun modellen te trainen, maar het is zeker meer dan een dokter had kunnen lezen. Het geeft snelle, overtuigende antwoorden en is heel gemakkelijk te gebruiken, in tegenstelling tot het handmatig zoeken in onderzoekspapers.
Betekent dit dat ChatGPT over het algemeen accuraat is voor klinisch advies? Nee. Grote taalmodellen (LLM's) zoals ChatGPT zijn voorgetraind op enorme hoeveelheden algemene gegevens, waardoor ze flexibeler zijn, maar twijfelachtig nauwkeurig voor specifieke medische taken.
AI-modellen zoals ChatGPT laten zich gemakkelijk leiden en kiezen vaak op problematische wijze de kant van de aannames van gebruikers. Daarnaast hebben onderzoekers opgemerkt dat deze modellen overdreven conservatieve of preutse neigingen kunnen vertonen bij het behandelen van gevoelige onderwerpen zoals seksuele gezondheid.
Stephen Hughes van Anglia Ruskin University schreef in De instandhouding, “Ik vroeg ChatGPT om een diagnose te stellen van pijn bij het plassen en afscheiding uit de mannelijke geslachtsorganen na onbeschermde geslachtsgemeenschap. Het intrigeerde me dat ik geen antwoord kreeg. Het was alsof ChatGPT bloosde op een verlegen computergestuurde manier. Het verwijderen van vermeldingen van geslachtsgemeenschap leidde ertoe dat ChatGPT een differentiële diagnose gaf die ook gonorroe omvatte, de aandoening die ik in gedachten had."
De meest kritische vragen te midden van dit alles zijn waarschijnlijk: Hoe nauwkeurig is ChatGPT in een medische context? En hoe groot is het risico op een verkeerde diagnose of andere problemen als dit zo doorgaat?
Generatieve AI in de medische praktijk
Nu huisartsen steeds meer experimenteren met AI-tools, evalueren onderzoekers hoe deze zich verhouden tot traditionele diagnosemethoden.
A onderzoek gepubliceerd in Expertsystemen met toepassingen voerde een vergelijkende analyse uit tussen ChatGPT, conventionele modellen voor machinaal leren en andere AI-systemen voor medische diagnoses.
De onderzoekers ontdekten dat ChatGPT weliswaar veelbelovend was, maar vaak beter presteerde dan traditionele modellen voor machinaal leren die specifiek waren getraind op medische datasets. Meerlagige perceptron neurale netwerken bereikten bijvoorbeeld de hoogste nauwkeurigheid bij het diagnosticeren van ziekten op basis van symptomen, met percentages van 81% en 94% op twee verschillende datasets.
Onderzoekers concludeerden dat ChatGPT en soortgelijke AI-tools weliswaar potentie hebben, maar dat "hun antwoorden vaak dubbelzinnig en uit hun context kunnen zijn, waardoor ze onjuiste diagnoses stellen, zelfs als gevraagd wordt om een antwoord te geven dat alleen rekening houdt met een specifieke set klassen."
Dit komt overeen met andere recente onderzoeken naar het potentieel van AI in de medische praktijk.
Bijvoorbeeld, onderzoek gepubliceerd in JAMA Network Open testte het vermogen van GPT-4 om complexe patiëntgevallen te analyseren. Hoewel het op sommige gebieden veelbelovende resultaten liet zien, maakte GPT-4 nog steeds fouten, waarvan sommige gevaarlijk zouden kunnen zijn in echte klinische scenario's.
Er zijn echter enkele uitzonderingen. Een onderzoek uitgevoerd door de New York Eye and Ear Infirmary of Mount Sinai (NYEE) liet zien hoe GPT-4 menselijke oogartsen kan evenaren of overtreffen in het diagnosticeren en behandelen van oogziekten.
Voor glaucoom gaf GPT-4 zeer nauwkeurige en gedetailleerde antwoorden die die van echte oogspecialisten overtroffen.
AI-ontwikkelaars zoals OpenAI en NVIDIA leiden nu gespecialiseerde medische AI-assistenten op om clinici te ondersteunen en tekortkomingen in basismodellen zoals GP-4 te compenseren.
OpenAI heeft al samengewerkt met gezondheidstechnologiebedrijf Color Health om een AI "copilot" voor kankerzorg te creëren, wat laat zien hoe deze tools steeds specifieker worden voor de klinische praktijk.
Voordelen en risico's afwegen
Er zijn talloze onderzoeken waarin speciaal getrainde AI-modellen worden vergeleken met mensen bij het identificeren van ziekten uit diagnostische beelden zoals MRI en röntgenstraling.
AI-technieken hebben artsen in alles overtroffen, van kanker en oogziektediagnose naar Alzheimer en Vroegtijdige opsporing van Parkinson. Eén AI-model, genaamd "Mia", bleek effectief in het analyseren van meer dan 10.000 mammografie-scans, het signaleren van bekende kankergevallen en het ontdekken van kanker bij 11 vrouwen die artsen hadden gemist.
Deze speciaal gebouwde AI-tools zijn echter zeker niet hetzelfde als het parsen van aantekeningen en bevindingen in een generiek taalmodel zoals ChatGPT en het vragen om alleen daaruit een diagnose af te leiden.
Toch is het gemak waarmee je dat doet en snelle, informatieve antwoorden krijgt, een moeilijke verleiding om te weerstaan.
Het is geen geheim dat de gezondheidszorg overbelast is. AI-tools besparen tijd, dat is hun aantrekkingskracht voor overweldigde artsen.
We zien dit terug in de publieke sector, zoals in het onderwijs, waar leraren op grote schaal AI gebruiken om materialen te maken, werk te markeren en nog veel meer.
Zal je arts je aantekeningen in ChatGPT verwerken en je op basis van de resultaten een recept voorschrijven voor je volgende doktersbezoek? Heel goed mogelijk. Ook op dit gebied is de belofte van AI-technologie om kostbare tijd te besparen moeilijk te ontkennen.
Er zal onder andere een gebruikscode voor AI in de dokterspraktijk moeten worden ontwikkeld. De British Medical Association heeft al opgeroepen tot een duidelijk beleid voor de integratie van AI in de klinische praktijk.
"De medische gemeenschap zal manieren moeten vinden om zowel artsen en stagiairs op te leiden als patiënten te begeleiden bij de veilige toepassing van deze hulpmiddelen", concludeerden de auteurs van het BMJ-onderzoek.
Naast educatie zijn doorlopend onderzoek, duidelijke richtlijnen en toewijding aan patiëntveiligheid essentieel om de voordelen van AI te realiseren en de risico's te compenseren. Het zal lastig zijn om het goed te doen.