Ischemiska stroke, som uppstår när blodflödet till hjärnan blockeras, är en av de vanligaste orsakerna till dödsfall och funktionsnedsättning.
En ny förtryckt studie utvärderade GPT-4:s potential att hjälpa läkare att fatta kritiska beslut vid behandling av strokepatienter.
Forskargruppen, som bestod av experter från Technion-Israel Institute of Technology i Israel och Mayo Clinic i USA, analyserade data från 100 patienter som hade uppvisat akuta strokesymtom.
🚨Ny preprint-varning. GPT-4 har visat sig fungera bra för diagnostik, men sällan som ett kliniskt beslutsstödsverktyg. I ett gemensamt arbete med @ShellyShahar från @RambamHCC använde vi den för att bestämma hur vi skulle behandla patienter med stroke. Hur gick det? Otroligt bra! https://t.co/8q31Mu2PRB pic.twitter.com/Um4IzULJVS
- Dvir Aran (@dvir_a) 27 januari 2024
Teamet jämförde GPT-4:s behandlingsrekommendationer med dem som ges av erfarna neurologer och de faktiska behandlingar som gavs till patienterna.
Syftet var att se hur väl AI:s förslag stämde överens med mänskliga expertbedömningar och medicinsk praxis i den verkliga världen.
För varje patient frågade vi GPT-4 om patienten skulle behandlas eller övervakas och med vilken behandling. Vi utformade prompten så att den gav ett skalat svar (1-7) i stället för ja/nej. Detta hade många fördelar: identifiera osäkerhet, använda ROC-AUC och minska hallucinationer genom att replikera frågan. pic.twitter.com/n0la4Oqgfg
- Dvir Aran (@dvir_a) 27 januari 2024
Ett av de viktigaste måtten som användes i denna studie var ytan under kurvan (AUC).
Utan att fördjupa oss i tekniska detaljer är ROC-kurvan ett sätt att visualisera hur väl ett diagnostiskt test fungerar.
Den plottar andelen sant positiva (korrekt identifierade fall) mot andelen falskt positiva (felaktigt identifierade fall) vid olika tröskelvärden.
AUC är alltså ett enda tal som sammanfattar testets prestanda över alla möjliga tröskelvärden, där 1,0 motsvarar ett perfekt test och 0,5 motsvarar en gissning.
I den medicinska världen anses en AUC på 0,7 till 0,8 vara acceptabel, 0,8 till 0,9 är utmärkt och över 0,9 är enastående.
I den här studien uppnådde GPT-4 en AUC på 0,85 när dess rekommendationer jämfördes med strokespecialisternas åsikter, vilket indikerar en hög grad av överensstämmelse och en utmärkt prestanda hos AI.
Jämfört med de behandlingar som gavs var AUC 0,80, vilket visar att GPT-4:s förslag var nära anpassade till verklig medicinsk praxis.
Så, att behandla eller inte behandla? GPT-4-överensstämmelsen med experten var AUC=0,85, med 20 skillnader, och med den verkliga världen var AUC 0,8. Dessa värden liknar överensstämmelsen mellan experten och den verkliga världen, så det är ganska anmärkningsvärt! pic.twitter.com/6dDbEa6ycv
- Dvir Aran (@dvir_a) 27 januari 2024
Dessa resultat är särskilt lovande eftersom de tyder på att GPT-4 potentiellt kan ge värdefullt stöd på akutmottagningar, särskilt när en neurologspecialist kanske inte är omedelbart tillgänglig.
Dessutom visade GPT-4 en anmärkningsvärd förmåga att förutsäga risken för dödlighet inom 90 dagar efter stroke.
AI-modellen identifierade högriskpatienter med betydande noggrannhet och överträffade vissa befintliga maskininlärningsmodeller som var särskilt utbildade för detta ändamål.
Men det som verkligen var förvånande var att vi också bad GPT-4 att uppskatta 90-dagars mortalitet och jämförde den med två nyligen använda traditionella ML-prediktionsmodeller för denna uppgift. GPT-4 var betydligt bättre (AUC=0,89 jämfört med 0,77 och 0,7). pic.twitter.com/FFhDQSmQc5
- Dvir Aran (@dvir_a) 27 januari 2024
Detta kan vara oerhört användbart för läkare när det gäller att prioritera behandlingar och hantera resurser mer effektivt.
Det är inte första gången LLM:er framgångsrikt används för tillämpningar inom sjukvården.
Google nyligen skapade Articulate Medical Intelligence Explorer (AMIE)som matchade eller till och med överträffade legitimerade primärvårdsläkare när det gällde att samla in patientinformation under medicinska intervjuer och fick högre poäng i empati.
Danska forskare använde till och med LLM för att förstå hur livshändelser påverkar dödlighetenoch deras modell slog den näst bästa med 11%.
Andra sofistikerade modeller för maskininlärning har upptäckt nya antibiotika eller terapeutiska föreningar på bara några minuter jämfört med månader eller år med traditionella experimentella tekniker.