Iskemiske hjerneslag, som oppstår når blodtilførselen til hjernen blokkeres, er en av de viktigste årsakene til død og uførhet.
En ny studie før trykking evaluerte potensialet til GPT-4 for å hjelpe leger med å ta kritiske beslutninger i behandlingen av slagpasienter.
Forskerteamet, som består av eksperter fra Technion-Israel Institute of Technology i Israel og Mayo Clinic i USA, analyserte data fra 100 pasienter som hadde vist akutte symptomer på hjerneslag.
🚨Nytt preprintvarsel. GPT-4 har vist seg å fungere godt for diagnostikk, men sjelden som et klinisk beslutningsstøtteverktøy. I et felles arbeid med @ShellyShahar fra @RambamHCC brukte vi den til å avgjøre hvordan vi skulle behandle pasienter med hjerneslag. Hvordan gikk det? Utrolig bra! https://t.co/8q31Mu2PRB pic.twitter.com/Um4IzULJVS
- Dvir Aran (@dvir_a) 27. januar 2024
Teamet sammenlignet GPT-4s behandlingsanbefalinger med behandlingsanbefalinger gitt av erfarne nevrologer og de faktiske behandlingene som ble gitt til pasientene.
Målet var å se hvor godt den kunstige intelligensens forslag stemte overens med menneskelige ekspertvurderinger og medisinsk praksis i den virkelige verden.
For hver pasient spurte vi GPT-4 om de skulle behandles eller overvåkes, og med hvilken behandling. Vi utformet spørsmålet slik at det ga et skalert svar (1-7) i stedet for ja/nei. Dette hadde mange fordeler: identifisere usikkerhet, bruke ROC-AUC og redusere hallusinasjoner ved å replikere spørsmålet. pic.twitter.com/n0la4Oqgfg
- Dvir Aran (@dvir_a) 27. januar 2024
Et av de viktigste målene som ble brukt i denne studien, var arealet under kurven (AUC).
Uten å gå for mye inn på det tekniske, er ROC-kurven en måte å visualisere hvor godt en diagnostisk test fungerer.
Den viser andelen sanne positive (korrekt identifiserte tilfeller) i forhold til andelen falske positive (feilaktig identifiserte tilfeller) ved ulike terskelverdier.
AUC er altså et enkelt tall som oppsummerer testens ytelse på tvers av alle mulige terskler, der 1,0 representerer en perfekt test og 0,5 representerer en gjetning.
I den medisinske verden anses en AUC på 0,7 til 0,8 som akseptabel, 0,8 til 0,9 som utmerket, og over 0,9 som enestående.
I denne studien oppnådde GPT-4 en AUC på 0,85 når anbefalingene ble sammenlignet med slagspesialistenes meninger, noe som indikerer en høy grad av samsvar og en utmerket ytelse fra AI.
Sammenlignet med de behandlingene som ble gitt, var AUC 0,80, noe som viser at GPT-4s forslag lå tett opp til medisinsk praksis i den virkelige verden.
Så, skal man behandle eller ikke behandle? GPT-4-overensstemmelsen med eksperten var AUC=0,85, med 20 forskjeller, og med den virkelige verden var AUC 0,8. Dette er på samme nivå som enigheten mellom eksperten og den virkelige verden, så det er ganske bemerkelsesverdig! pic.twitter.com/6dDbEa6ycv
- Dvir Aran (@dvir_a) 27. januar 2024
Disse resultatene er spesielt lovende fordi de tyder på at GPT-4 potensielt kan gi verdifull støtte på akuttmottak, spesielt når en spesialist i nevrologi ikke er umiddelbart tilgjengelig.
GPT-4 viste dessuten en bemerkelsesverdig evne til å forutsi risikoen for dødelighet innen 90 dager etter hjerneslaget.
AI-modellen identifiserte pasienter med høy risiko med betydelig nøyaktighet, og utkonkurrerte noen eksisterende maskinlæringsmodeller som var spesielt opplært for dette formålet.
Men det virkelig forbløffende var at vi også ba GPT-4 om å estimere 90-dagers dødelighet og sammenlignet den med to nyere tradisjonelle ML-prediksjonsmodeller for denne oppgaven. GPT-4 var betydelig bedre (AUC=0,89 sammenlignet med 0,77 og 0,7). pic.twitter.com/FFhDQSmQc5
- Dvir Aran (@dvir_a) 27. januar 2024
Dette kan være utrolig nyttig for legene når de skal prioritere behandlinger og forvalte ressursene mer effektivt.
Dette er ikke første gang LLM-er har blitt brukt i helsevesenet.
Google nylig opprettet Articulate Medical Intelligence Explorer (AMIE)som var like gode eller til og med bedre enn sertifiserte primærleger til å samle inn pasientinformasjon under medisinske intervjuer, og som scoret høyere på empati.
Danske forskere brukte til og med LLM-er til å forstå hvordan livshendelser påvirket dødeligheten, og deres modell slo den nest beste med 11%.
Andre sofistikerte maskinlæringsmodeller har oppdaget nye antibiotika eller terapeutiske forbindelser på bare minutter, sammenlignet med måneder eller år med tradisjonelle eksperimentelle teknikker.