Googles AI-system, der er trænet til at gennemføre lægesamtaler, overgår menneskelige læger på områder, der vedrører opførsel ved sygesengen og diagnostisk nøjagtighed.
Udviklet af teams hos DeepMind og Google Research og i øjeblikket udgivet på ArXivChatbotten, der hedder Articulate Medical Intelligence Explorer (AMIE), udmærkede sig blandt andet ved at diagnosticere luftvejs- og kardiovaskulære tilstande.
Den matchede eller overgik endda autoriserede primærlæger i at indsamle patientinformation under lægesamtaler og scorede højere i empati.
Vi er glade for at kunne præsentere vores nye forskningsartikel om AMIE (Articulate Medical Intelligence Explorer), et skridt i retning af samtalediagnostisk AI ved at @GoogleAI @GoogleSundhed @GoogleDeepMindhttps://t.co/KIl1cYjgWO pic.twitter.com/JcPAiNcPgJ
- Mike Schaekermann (@HardyShakerman) 12. januar 2024
En af de vigtigste udfordringer i udviklingen af AMIE var manglen på virkelige medicinske samtaler til træningsdata.
For at overvinde dette udviklede teamet hos Google Health, herunder AI-forsker Vivek Natarajan, en metode, der gjorde det muligt for chatbotten at deltage i simulerede 'samtaler'.
AI'en blev trænet til at spille rollerne som patient, empatisk kliniker og kritiker, der evaluerer interaktionen mellem læge og patient.
I tests med 20 skuespillere, der var trænet til at simulere patienter, og 20 autoriserede klinikere matchede eller overgik AMIE konsekvent lægernes diagnostiske nøjagtighed på tværs af seks medicinske specialer.
Den klarede sig bedre end lægerne i 24 ud af 26 kriterier for samtalekvalitet, såsom høflighed og forklaring af tilstande og behandlinger.
Alan Karthikesalingam, der er klinisk forsker hos Google Health i London og medforfatter til undersøgelsen, bemærkede: "Så vidt vi ved, er det første gang, at et AI-system til samtale er blevet designet optimalt til diagnostisk dialog og optagelse af den kliniske historie."
Vi er glade for at kunne præsentere AMIE (Articulate Medical Intelligence Explorer), vores forsknings-LLM til diagnostiske samtaler. AMIE overgik læger i primærsektoren i samtalekvalitet og diagnostisk nøjagtighed i en randomiseret undersøgelse i stil med "virtuel OSCE". Preprint ➡️ https://t.co/XZizS9PtDG (1/7) pic.twitter.com/3t8hTkLmO9
- Alan Karthikesalingam (@alan_karthi) 12. januar 2024
Karthikesalingam understreger dog, at AMIE stadig er eksperimentel og ikke er blevet testet på rigtige patienter, kun på skuespillere, der portrætterer fiktive, men plausible medicinske tilstande.
Sådan fungerede undersøgelsen
Undersøgelsen med navnet "Towards Conversational Diagnostic AI" introducerer AMIE, en LLM designet til medicinsk diagnostisk interaktion.
Her er mere information om, hvordan det fungerer:
- Udvikling af AMIE: Articulate Medical Intelligence Explorer (AMIE) er et AI-system baseret på en stor sprogmodel (LLM) skabt af Google. Det er optimeret til diagnostisk dialog i medicinske sammenhænge. AMIE er designet til at efterligne den komplekse proces med at optage en klinisk historie og foretage diagnostiske ræsonnementer.
- Simuleret dialogtræning: Forskerne udviklede et nyt simuleret selvspilsmiljø på grund af mangel på virkelige medicinske samtaler til træning. Det gjorde det muligt for AMIE at indgå i simulerede dialoger og spille forskellige roller (patient, læge, kritiker) for at forbedre læringen. Disse dialoger dækkede en række medicinske tilstande, specialer og sammenhænge.
- Finjustering af instruktioner og chain-of-reasoning-strategi: AMIE blev finjusteret ved hjælp af forskellige datasæt fra den virkelige verden, herunder svar på medicinske spørgsmål, ræsonnementer, opsummeringer og dialogdata. En chain-of-reasoning-strategi involverede analyse af patientinformation, formulering af svar og handlinger og finpudsning af svarene baseret på den aktuelle samtale.
- Ekstern objektiv struktureret klinisk undersøgelse (OSCE): Forskerne gennemførte et randomiseret, dobbeltblindt crossover-studie, der sammenlignede AMIE med læger i den primære sundhedssektor (PCP'er). Undersøgelsen anvendte tekstbaserede konsultationer med 149 simulerede patienter, der blev portrætteret af skuespillere i forskellige kliniske scenarier. Både speciallæger og patientskuespillere vurderede AMIE's og PCP'ernes præstationer.
- Evaluering og resultater: Evalueringen fokuserede på diagnostisk nøjagtighed, ledelsesmæssig ræsonnering, kommunikationsevner og empati. AMIE viste en overlegen præstation i forhold til PCP'er på flere områder, herunder diagnostisk nøjagtighed og empati.
Forskerne advarer om, at disse resultater indtil videre skal tolkes med forsigtighed, idet de bemærker undersøgelsens begrænsninger, såsom brugen af en tekst-chat-grænseflade og manglen på patientinteraktioner i den virkelige verden.
Men det markerer et fremskridt i retning af at udvikle AI-systemer, der er i stand til at gennemføre medicinske interviews og diagnostiske dialoger.
Generativ AI i sundhedssektoren har været et område med enorm succes, med modeller, der med succes At finde nye antibiotika, Forbedring af koloskopierog Simulering af interaktioner mellem forbindelser og biologiske processer.
Kan AI-modeller nu også indtage patientvendte roller?