Ischemische beroertes, die optreden wanneer de bloedtoevoer naar de hersenen geblokkeerd is, zijn een belangrijke oorzaak van overlijden en invaliditeit.
Een nieuwe preprint onderzoek het potentieel van GPT-4 geëvalueerd om artsen te helpen bij het nemen van cruciale beslissingen bij de behandeling van patiënten met een beroerte.
Het onderzoeksteam, bestaande uit experts van het Technion-Israel Institute of Technology in Israël en de Mayo Clinic in de VS, analyseerde de gegevens van 100 patiënten die acute symptomen van een beroerte vertoonden.
Waarschuwing voor nieuwe voordruk. Van GPT-4 is aangetoond dat het goed werkt voor diagnostiek, maar zelden als hulpmiddel voor klinische besluitvorming. In samenwerking met @ShellyShahar van @RambamHCC gebruikten we het om te beslissen hoe we patiënten met een beroerte moesten behandelen. Hoe deed het programma het? Verbazingwekkend goed! https://t.co/8q31Mu2PRB pic.twitter.com/Um4IzULJVS
- Dvir Aran (@dvir_a) 27 januari 2024
Het team vergeleek de behandelaanbevelingen van GPT-4 met die van ervaren neurologen en de behandelingen die daadwerkelijk aan de patiënten werden gegeven.
Het doel was om te zien hoe goed de suggesties van de AI overeenkwamen met het oordeel van menselijke experts en de echte medische praktijk.
Voor elke patiënt vroegen we de GPT-4 of we moesten behandelen of monitoren en met welke behandeling. We ontwierpen de vraag om een antwoord op schaal (1-7) in plaats van ja/nee. Dit had veel voordelen: onzekerheid identificeren, ROC-AUC gebruiken en hallucinaties verminderen door de vraag te herhalen. pic.twitter.com/n0la4Oqgfg
- Dvir Aran (@dvir_a) 27 januari 2024
Een van de belangrijkste metingen die in dit onderzoek werd gebruikt, was de Area Under the Curve (AUC).
Zonder al te veel in de technische details te verzanden, is de ROC-curve een manier om te visualiseren hoe goed een diagnostische test presteert.
Het zet het aantal ware positieven (correct geïdentificeerde gevallen) uit tegen het aantal valse positieven (onjuist geïdentificeerde gevallen) bij verschillende drempelwaarden.
De AUC is dus een enkel getal dat de prestaties van de test over alle mogelijke drempelwaarden samenvat, waarbij 1,0 staat voor een perfecte test en 0,5 voor een gok.
In de medische wereld wordt een AUC van 0,7 tot 0,8 als acceptabel beschouwd, 0,8 tot 0,9 is uitstekend en boven 0,9 is uitstekend.
In dit onderzoek behaalde GPT-4 een AUC van 0,85 toen de aanbevelingen werden vergeleken met de meningen van beroertespecialisten, wat duidt op een hoge mate van overeenstemming en een uitstekende prestatie van de AI.
Vergeleken met de gegeven behandelingen was de AUC 0,80, wat aantoont dat de suggesties van GPT-4 nauw aansluiten bij de echte medische praktijk.
Wel of niet behandelen? GPT-4 overeenkomst met de expert was AUC=0,85, met 20 verschillen, en met de echte wereld was de AUC 0,8. Dit is vergelijkbaar met de overeenkomst tussen de expert en de echte wereld, dus behoorlijk opmerkelijk! pic.twitter.com/6dDbEa6ycv
- Dvir Aran (@dvir_a) 27 januari 2024
Deze resultaten zijn vooral veelbelovend omdat ze suggereren dat GPT-4 mogelijk waardevolle ondersteuning kan bieden bij spoedeisende hulp, vooral wanneer een neurologiespecialist niet onmiddellijk beschikbaar is.
Bovendien bleek GPT-4 een opmerkelijk vermogen te hebben om het risico op sterfte binnen 90 dagen na een beroerte te voorspellen.
Het AI-model identificeerde patiënten met een hoog risico met significante nauwkeurigheid en presteerde beter dan sommige bestaande machine-learning modellen die specifiek voor dit doel waren getraind.
Maar wat echt verbazingwekkend was, was dat we GPT-4 ook vroegen om 90-dagen sterfte te schatten en het voor deze taak vergeleken met twee recente traditionele ML-voorspellingsmodellen. GPT-4 was significant beter (AUC=0,89 vergeleken met 0,77 en 0,7). pic.twitter.com/FFhDQSmQc5
- Dvir Aran (@dvir_a) 27 januari 2024
Dit kan ongelooflijk nuttig zijn voor artsen bij het prioriteren van behandelingen en het effectiever beheren van middelen.
Dit is niet de eerste keer dat LLM's met succes worden gebruikt voor toepassingen in de gezondheidszorg.
Google onlangs Articulate Medical Intelligence Explorer (AMIE) gemaakt.die even goed of zelfs beter presteerden dan gediplomeerde basisartsen in het verzamelen van informatie over patiënten tijdens medische interviews en hoger scoorden op empathie.
Deense onderzoekers gebruikten zelfs LLM's om begrijpen hoe levensgebeurtenissen sterfte beïnvloedenwaarbij hun model het op één na beste model versloeg met 11%.
Andere geavanceerde modellen voor machinaal leren hebben nieuwe antibiotica ontdekt of therapeutische verbindingen in slechts enkele minuten vergeleken met de maanden of jaren van traditionele experimentele technieken.