Googles AI-system, som tränats för att genomföra medicinska intervjuer, överträffar mänskliga läkare på områden som rör bemötande och diagnostisk noggrannhet.
Utvecklad av team vid DeepMind och Google Research och för närvarande publicerad på ArXivChatboten, som kallas Articulate Medical Intelligence Explorer (AMIE), utmärkte sig bland annat genom att diagnostisera andnings- och kardiovaskulära tillstånd.
Den matchade eller till och med överträffade legitimerade primärvårdsläkares förmåga att samla in patientinformation under medicinska intervjuer och fick högre poäng i empati.
Vi är glada över att kunna presentera vår nya forskningsrapport om AMIE (Articulate Medical Intelligence Explorer), ett steg mot konversationsbaserad diagnostisk AI genom @GoogleAI @GoogleHälsa @GoogleDeepMindhttps://t.co/KIl1cYjgWO pic.twitter.com/JcPAiNcPgJ
- Mike Schaekermann (@HardyShakerman) 12 januari 2024
En av de största utmaningarna med att utveckla AMIE var bristen på verkliga medicinska konversationer som träningsdata.
För att lösa detta har teamet på Google Health, inklusive AI-forskaren Vivek Natarajan, tagit fram en metod som gör det möjligt för chatboten att delta i simulerade "konversationer".
AI:n tränades i att spela rollerna som patient, empatisk läkare och kritiker som utvärderar interaktionen mellan läkare och patient.
I tester med 20 skådespelare som utbildats för att simulera patienter och 20 legitimerade läkare, matchade eller överträffade AMIE konsekvent läkarnas diagnostiska noggrannhet inom sex medicinska specialiteter.
Den överträffade läkarna i 24 av 26 kvalitetskriterier för samtal, som artighet och förklaring av tillstånd och behandlingar.
Alan Karthikesalingam, klinisk forskare vid Google Health i London och medförfattare till studien, konstaterade: "Såvitt vi vet är det här första gången som ett AI-system för konversation någonsin har utformats optimalt för diagnostisk dialog och för att ta upp den kliniska anamnesen."
Vi är glada att kunna presentera AMIE (Articulate Medical Intelligence Explorer), vår forsknings-LLM för diagnostiska samtal. AMIE överträffade primärvårdsläkare i samtalskvalitet och diagnostisk noggrannhet i en randomiserad studie i stil med "virtuell OSCE". Förtryck ➡️ https://t.co/XZizS9PtDG (1/7) pic.twitter.com/3t8hTkLmO9
- Alan Karthikesalingam (@alan_karthi) 12 januari 2024
Karthikesalingam betonar dock att AMIE fortfarande är experimentellt och inte har testats på riktiga patienter, utan endast på skådespelare som porträtterar fiktiva men ändå rimliga medicinska tillstånd.
Hur studien fungerade
I studien "Towards Conversational Diagnostic AI" introduceras AMIE, en LLM-utbildning utformad för interaktioner inom medicinsk diagnostik.
Här finns mer information om hur det fungerar:
- Utveckling av AMIE: Articulate Medical Intelligence Explorer (AMIE) är ett AI-system som bygger på en Large Language Model (LLM) skapad av Google. Det är optimerat för diagnostisk dialog i medicinska sammanhang. AMIE har utformats för att efterlikna den komplexa processen med klinisk anamnesupptagning och diagnostiska resonemang.
- Simulerad dialogträning: Forskarna utvecklade en ny självspelande simulerad miljö på grund av bristen på verkliga medicinska samtal för utbildning. Detta gjorde det möjligt för AMIE att delta i simulerade dialoger och spela olika roller (patient, läkare, kritiker) för att förbättra inlärningen. Dessa dialoger omfattade en rad olika medicinska tillstånd, specialiteter och sammanhang.
- Finjustering av instruktioner och strategi för resonemang i kedjan: AMIE finjusterade instruktionerna med hjälp av olika verkliga dataset, inklusive medicinska frågor och svar, resonemang, sammanfattningar och dialogdata. En resonemangskedjestrategi innebar att man analyserade patientinformation, formulerade svar och åtgärder och förfinade svaren baserat på den aktuella konversationen.
- OSCE-studie (Objective Structured Clinical Examination) på distans: Forskarna genomförde en randomiserad, dubbelblind crossover-studie där AMIE jämfördes med primärvårdsläkare (PCP). I studien användes textbaserade konsultationer med 149 simulerade patienter som porträtterades av skådespelare i olika kliniska scenarier. Både specialistläkarna och patientskådespelarna bedömde AMIE:s och PCP:s prestationer.
- Utvärdering och resultat: Utvärderingen fokuserade på diagnostisk noggrannhet, behandlingsresonemang, kommunikationsförmåga och empati. AMIE uppvisade överlägsna resultat jämfört med PCP:s inom flera områden, bland annat diagnostisk noggrannhet och empati.
Forskarna varnar för att dessa resultat bör tolkas försiktigt för tillfället och noterar studiens begränsningar, såsom användningen av ett textchattgränssnitt och bristen på patientinteraktioner i den verkliga världen.
Det innebär dock ett framsteg mot att utveckla AI-system som kan genomföra medicinska intervjuer och diagnostiska dialoger.
Generativ AI inom sjukvården har varit ett område med enorma framgångar, med modeller som framgångsrikt hitta nya antibiotika, förbättra koloskopier, och simulering av interaktioner mellan föreningar och biologiska processer.
Kan AI-modeller nu också anta patientinriktade roller?