Iskæmiske slagtilfælde, som opstår, når blodtilførslen til hjernen blokeres, er en væsentlig årsag til død og invaliditet.
En ny Studie før udskrivning evaluerede GPT-4's potentiale til at hjælpe læger med at træffe kritiske beslutninger i behandlingen af patienter med slagtilfælde.
Forskerteamet, der bestod af eksperter fra Technion-Israel Institute of Technology i Israel og Mayo Clinic i USA, analyserede data fra 100 patienter, der havde vist akutte symptomer på slagtilfælde.
🚨Nyt preprint-alarm. GPT-4 har vist sig at fungere godt til diagnostik, men sjældent som et klinisk beslutningsstøtteværktøj. I et fælles arbejde med @ShellyShahar fra @RambamHCC Vi brugte den til at beslutte, hvordan vi skulle behandle patienter med slagtilfælde. Hvordan klarede den sig? Forbløffende godt! https://t.co/8q31Mu2PRB pic.twitter.com/Um4IzULJVS
- Dvir Aran (@dvir_a) 27. januar 2024
Teamet sammenlignede GPT-4's behandlingsanbefalinger med dem, der blev givet af erfarne neurologer, og de faktiske behandlinger, der blev givet til patienterne.
Målet var at se, hvor godt AI'ens forslag stemte overens med menneskelige ekspertvurderinger og medicinsk praksis i den virkelige verden.
For hver patient spurgte vi GPT-4, om de skulle behandles eller overvåges og med hvilken behandling. Vi designede prompten til at returnere et skaleret svar (1-7) i stedet for ja/nej. Det havde mange fordele: identificere usikkerhed, bruge ROC-AUC og reducere hallucinationer ved at gentage spørgsmålet. pic.twitter.com/n0la4Oqgfg
- Dvir Aran (@dvir_a) 27. januar 2024
Et af de vigtigste mål, der blev brugt i denne undersøgelse, var arealet under kurven (AUC).
Uden at gå for meget op i det tekniske er ROC-kurven en måde at visualisere, hvor godt en diagnostisk test klarer sig.
Den viser antallet af sande positive (korrekt identificerede tilfælde) i forhold til antallet af falske positive (forkert identificerede tilfælde) ved forskellige tærskler.
AUC er altså et enkelt tal, der opsummerer testens præstation på tværs af alle mulige tærskler, hvor 1,0 repræsenterer en perfekt test, og 0,5 repræsenterer et gæt.
I den medicinske verden betragtes en AUC på 0,7 til 0,8 som acceptabel, 0,8 til 0,9 er fremragende, og over 0,9 er enestående.
I denne undersøgelse opnåede GPT-4 en AUC på 0,85, da dens anbefalinger blev sammenlignet med udtalelser fra slagtilfælde-specialister, hvilket indikerer en høj grad af overensstemmelse og en fremragende præstation af AI.
Sammenlignet med de givne behandlinger var AUC 0,80, hvilket viser, at GPT-4's forslag var tæt på den virkelige verdens medicinske praksis.
Så skal man behandle eller ikke behandle? GPT-4-aftalen med eksperten var AUC=0,85 med 20 forskelle, og med den virkelige verden var AUC 0,8. Det svarer til overensstemmelsen mellem eksperten og den virkelige verden, så det er ret bemærkelsesværdigt! pic.twitter.com/6dDbEa6ycv
- Dvir Aran (@dvir_a) 27. januar 2024
Disse resultater er særligt lovende, fordi de antyder, at GPT-4 potentielt kan yde værdifuld støtte på skadestuer, især når en neurologispecialist måske ikke er umiddelbart tilgængelig.
Desuden viste GPT-4 en bemærkelsesværdig evne til at forudsige risikoen for dødelighed inden for 90 dage efter slagtilfældet.
AI-modellen identificerede patienter med høj risiko med betydelig nøjagtighed og overgik nogle eksisterende maskinlæringsmodeller, der var specielt trænet til dette formål.
Men hvad der virkelig var forbløffende var, at vi også bad GPT-4 om at estimere 90-dages dødelighed og sammenlignede den med to nyere traditionelle ML-forudsigelsesmodeller til denne opgave. GPT-4 var betydeligt bedre (AUC = 0,89 sammenlignet med 0,77 og 0,7). pic.twitter.com/FFhDQSmQc5
- Dvir Aran (@dvir_a) 27. januar 2024
Det kan være utroligt nyttigt for læger, når de skal prioritere behandlinger og styre ressourcerne mere effektivt.
Det er ikke første gang, LLM'er er blevet brugt med succes i sundhedssektoren.
Google nyligt oprettede Articulate Medical Intelligence Explorer (AMIE)som matchede eller endda overgik autoriserede primærlæger i at indsamle patientinformation under lægesamtaler og scorede højere i empati.
Danske forskere brugte endda LLM'er til at forstå, hvordan livsbegivenheder påvirker dødelighedenog deres model slog den næstbedste med 11%.
Andre sofistikerede maskinlæringsmodeller har opdaget nye antibiotika eller terapeutiske forbindelser på blot få minutter sammenlignet med måneder eller år med traditionelle eksperimentelle teknikker.