Het AI-systeem van Google, dat getraind is om medische interviews af te nemen, overtreft menselijke artsen op het gebied van bedmanieren en diagnostische nauwkeurigheid.
Ontwikkeld door teams bij DeepMind en Google Research en momenteel gepubliceerd op ArXivDe chatbot, genaamd de Articulate Medical Intelligence Explorer (AMIE), blonk uit in het diagnosticeren van onder andere ademhalings- en cardiovasculaire aandoeningen.
Ze evenaarden of presteerden zelfs beter dan gediplomeerde basisartsen in het verzamelen van informatie over patiënten tijdens medische interviews en scoorden hoger in empathie.
Met veel plezier introduceren we ons nieuwe onderzoeksartikel over AMIE (Articulate Medical Intelligence Explorer), een stap in de richting van conversationele diagnostische AI door @GoogleAI @GoogleGezondheid @GoogleDeepMindhttps://t.co/KIl1cYjgWO pic.twitter.com/JcPAiNcPgJ
- Mike Schaekermann (@HardyShakerman) 12 januari 2024
Een van de belangrijkste uitdagingen bij de ontwikkeling van AMIE was de schaarste aan echte medische gesprekken voor trainingsgegevens.
Om dit te voorkomen heeft het team van Google Health, waaronder AI-onderzoekswetenschapper Vivek Natarajan, een methode ontwikkeld waarmee de chatbot gesimuleerde 'gesprekken' kan voeren.
De AI werd getraind om de rol te spelen van een patiënt, een empathische clinicus en een criticus die de interactie tussen arts en patiënt beoordeelt.
In tests met 20 acteurs die getraind waren om patiënten te simuleren en 20 gediplomeerde artsen, evenaarde of overtrof AMIE consequent de diagnostische nauwkeurigheid van de artsen in zes medische specialismen.
Het deed het beter dan artsen in 24 van de 26 kwaliteitscriteria voor gesprekken, zoals beleefdheid en het uitleggen van aandoeningen en behandelingen.
Alan Karthikesalingam, een klinisch onderzoeker bij Google Health in Londen en co-auteur van het onderzoek, merkte op: "Voor zover wij weten is dit de eerste keer dat een conversatie-AI-systeem ooit optimaal is ontworpen voor diagnostische dialoog en het afnemen van de klinische geschiedenis."
Met veel plezier introduceren we AMIE (Articulate Medical Intelligence Explorer), onze onderzoeks-LLM voor diagnostische gesprekken. AMIE overtrof eerstelijnszorgartsen in gesprekskwaliteit en diagnostische accuratesse in een "virtuele OSCE"-achtige gerandomiseerde studie. Voordruk ➡️ https://t.co/XZizS9PtDG (1/7) pic.twitter.com/3t8hTkLmO9
- Alan Karthikesalingam (@alan_karthi) 12 januari 2024
Karthikesalingam benadrukt echter dat AMIE experimenteel blijft en niet getest is op echte patiënten, maar alleen op acteurs die fictieve maar plausibele medische aandoeningen uitbeelden.
Hoe het onderzoek werkte
Het onderzoek genaamd "Towards Conversational Diagnostic AI" introduceert AMIE, een LLM ontworpen voor medische diagnostische interacties.
Hier is meer informatie over hoe het werkt:
- Ontwikkeling van AMIE: De Articulate Medical Intelligence Explorer (AMIE) is een AI-systeem dat is gebaseerd op een Large Language Model (LLM) van Google. Het is geoptimaliseerd voor diagnostische dialogen in medische contexten. AMIE is ontworpen om het complexe proces van klinische anamnese en diagnostisch redeneren na te bootsen.
- Gesimuleerde dialoogtraining: De onderzoekers ontwikkelden een nieuwe zelf spelende gesimuleerde omgeving vanwege een gebrek aan echte medische gesprekken voor training. Dit stelde AMIE in staat om gesimuleerde dialogen aan te gaan, waarbij ze verschillende rollen speelden (patiënt, arts, criticus) om het leren te verbeteren. Deze dialogen bestreken een scala aan medische aandoeningen, specialismen en contexten.
- Instructie fine-tuning en chain-of-reasoning strategie: AMIE onderging instructie verfijning met behulp van verschillende real-world datasets, waaronder medische vraag-antwoord, redeneren, samenvatten, en dialoog data. Een 'chain-of-reasoning'-strategie bestond uit het analyseren van patiëntinformatie, het formuleren van reacties en acties, en het verfijnen van de reacties op basis van de huidige conversatie.
- Objectief gestructureerd klinisch onderzoek op afstand (OSCE): De onderzoekers voerden een gerandomiseerde, dubbelblinde cross-overstudie uit waarin AMIE werd vergeleken met eerstelijnszorgartsen (PCP's). Deze studie maakte gebruik van tekstgebaseerde consulten met 149 gesimuleerde patiënten die werden uitgebeeld door acteurs in verschillende klinische scenario's. Zowel gespecialiseerde artsen als de patiëntacteurs beoordeelden de prestaties van AMIE en de PCP's.
- Evaluatie en resultaten: De evaluatie richtte zich op diagnostische nauwkeurigheid, managementredenering, communicatievaardigheden en empathie. AMIE toonden superieure prestaties vergeleken met PCP's op verschillende gebieden, waaronder diagnostische nauwkeurigheid en empathie.
De onderzoekers waarschuwen dat deze resultaten voorlopig licht geïnterpreteerd moeten worden en wijzen op de beperkingen van het onderzoek, zoals het gebruik van een tekstchatinterface en het gebrek aan echte interacties met patiënten.
Het markeert echter wel vooruitgang in de ontwikkeling van AI-systemen die medische interviews en diagnostische dialogen kunnen voeren.
Generatieve AI in de gezondheidszorg is een gebied met enorm succes, met modellen die met succes nieuwe antibiotica vinden, colonoscopieën verbeterenen interacties simuleren tussen verbindingen en biologische processen.
Zouden AI-modellen nu ook patiëntgerichte rollen kunnen overnemen?