Googles LLM i helsefag utmerker seg på viktige områder

Googles AI-system, som er opplært til å gjennomføre medisinske intervjuer, overgår menneskelige leger på områder som pasientbehandling og diagnostisk nøyaktighet.

Utviklet av team ved DeepMind og Google Research og for tiden publisert på ArXivChatboten, som fikk navnet Articulate Medical Intelligence Explorer (AMIE), utmerket seg blant annet i å diagnostisere luftveislidelser og hjerte- og karsykdommer.

Den var like god eller til og med bedre enn sertifiserte primærleger når det gjaldt å samle inn pasientinformasjon under medisinske intervjuer, og scoret høyere på empati.

Vi er glade for å kunne presentere vår nye forskningsrapport om AMIE (Articulate Medical Intelligence Explorer), et skritt mot dialogbasert diagnostisk AI ved hjelp av @GoogleAI @GoogleHelse @GoogleDeepMind https://t.co/KIl1cYjgWO pic.twitter.com/JcPAiNcPgJ

- Mike Schaekermann (@HardyShakerman) 12. januar 2024

En av hovedutfordringene ved utviklingen av AMIE var mangelen på reelle medisinske samtaler som treningsdata.

For å få bukt med dette utviklet teamet hos Google Health, deriblant AI-forsker Vivek Natarajan, en metode som gjør det mulig for chatboten å delta i simulerte "samtaler".

Den kunstige intelligensen ble trent opp til å spille rollene til en pasient, en empatisk kliniker og en kritiker som evaluerer samspillet mellom lege og pasient.

I tester med 20 skuespillere som var opplært til å simulere pasienter, og 20 sertifiserte klinikere, matchet eller overgikk AMIE konsekvent legenes diagnostiske nøyaktighet på tvers av seks medisinske spesialiteter.

Den var bedre enn legene på 24 av 26 kriterier for samtalekvalitet, som høflighet og forklaring av tilstander og behandlinger.

Alan Karthikesalingam, klinisk forsker ved Google Health i London og medforfatter av studien, bemerket: "Så vidt vi vet, er dette første gang et AI-system for samtale er designet optimalt for diagnostisk dialog og anamneseopptak."

Vi er glade for å kunne introdusere AMIE (Articulate Medical Intelligence Explorer), vår forsknings-LLM for diagnostiske samtaler. AMIE overgikk primærleger i samtalekvalitet og diagnostisk nøyaktighet i en randomisert studie i "virtuell OSCE"-stil. Forhåndsutskrift https://t.co/XZizS9PtDG (1/7) pic.twitter.com/3t8hTkLmO9

- Alan Karthikesalingam (@alan_karthi) 12. januar 2024

Karthikesalingam understreker imidlertid at AMIE fortsatt er eksperimentelt og ikke har blitt testet på ekte pasienter, kun på skuespillere som fremstiller fiktive, men plausible medisinske tilstander.

Hvordan studien fungerte

Studien "Towards Conversational Diagnostic AI" introduserer AMIE, en LLM utviklet for medisinsk diagnostisk interaksjon.

Her finner du mer informasjon om hvordan det fungerer:

Utvikling av AMIE: Articulate Medical Intelligence Explorer (AMIE) er et AI-system basert på en Large Language Model (LLM) utviklet av Google. Det er optimalisert for diagnostisk dialog i medisinske sammenhenger. AMIE ble utviklet for å etterligne den komplekse prosessen med klinisk anamneseopptak og diagnostisk resonnering.
Simulert dialogtrening: Forskerne utviklet et nytt simulert miljø for selvspill på grunn av mangel på reelle medisinske samtaler for opplæring. Dette gjorde det mulig for AMIE å delta i simulerte dialoger og spille ulike roller (pasient, lege, kritiker) for å forbedre læringen. Disse dialogene dekket en rekke medisinske tilstander, spesialiteter og kontekster.
Finjustering av instruksjoner og strategi for kjeden av resonnementer: AMIE ble finjustert ved hjelp av ulike datasett fra den virkelige verden, blant annet data om medisinske spørsmål, resonnering, oppsummering og dialog. En chain-of-reasoning-strategi innebar å analysere pasientinformasjon, formulere svar og handlinger, og finjustere svarene basert på den aktuelle samtalen.
Ekstern objektiv strukturert klinisk undersøkelse (OSCE): Forskerne gjennomførte en randomisert, dobbeltblindet crossover-studie der AMIE ble sammenlignet med primærleger. Studien brukte tekstbaserte konsultasjoner med 149 simulerte pasienter som ble fremstilt av skuespillere i ulike kliniske scenarier. Både spesialistleger og pasientskuespillerne vurderte prestasjonene til AMIE og PCP-ene.
Evaluering og resultater: Evalueringen fokuserte på diagnostisk nøyaktighet, behandlingsresonnement, kommunikasjonsferdigheter og empati. AMIE viste overlegen ytelse sammenlignet med PCP-er på flere områder, blant annet diagnostisk nøyaktighet og empati.

Forskerne advarer om at disse resultatene foreløpig bør tolkes med forsiktighet, og peker på studiens begrensninger, som bruken av et tekst-chat-grensesnitt og mangelen på pasientinteraksjoner i den virkelige verden.

Det markerer imidlertid et fremskritt i utviklingen av AI-systemer som er i stand til å gjennomføre medisinske intervjuer og diagnostiske dialoger.

Generativ AI i helsevesenet har vært et område med enorm suksess, med modeller som har lykkes finne nye antibiotika, bedre koloskopier, og Simulering av interaksjoner mellom forbindelser og biologiske prosesser.

Kan AI-modeller nå også ta i bruk pasientrettede roller?

Google Research Healthcare LLM utmerker seg på viktige områder

Hvordan studien fungerte

Bli med i fremtiden

Sam Jeans

RELATERTE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Google Research Healthcare LLM utmerker seg på viktige områder

Hvordan studien fungerte

Bli med i fremtiden

Sam Jeans

RELATERTE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EKSKLUSIVHold deg i forkant med DailyAI

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI