Ischämische Schlaganfälle, bei denen der Blutfluss zum Gehirn blockiert wird, sind eine der Hauptursachen für Tod und Behinderung.
Eine neue Vordruckstudie untersuchte das Potenzial von GPT-4, Ärzte bei kritischen Entscheidungen in der Behandlung von Schlaganfallpatienten zu unterstützen.
Das Forscherteam, bestehend aus Experten des Technion-Israel Institute of Technology in Israel und der Mayo Clinic in den USA, analysierte die Daten von 100 Patienten, die akute Schlaganfall-Symptome aufwiesen.
🚨Neue Vorabdruckmeldung. GPT-4 hat sich in der Diagnostik bewährt, aber nur selten als klinisches Entscheidungshilfeinstrument. In gemeinsamer Arbeit mit @ShellyShahar von @RambamHCC Wir haben sie genutzt, um zu entscheiden, wie Patienten mit Schlaganfall behandelt werden sollen. Wie hat es funktioniert? Erstaunlich gut! https://t.co/8q31Mu2PRB pic.twitter.com/Um4IzULJVS
- Dvir Aran (@dvir_a) 27. Januar 2024
Das Team verglich die Behandlungsempfehlungen von GPT-4 mit denen erfahrener Neurologen und den tatsächlichen Behandlungen der Patienten.
Das Ziel war es, herauszufinden, wie gut die KI-Vorschläge mit dem menschlichen Expertenurteil und der realen medizinischen Praxis übereinstimmen.
Für jeden Patienten fragten wir GPT-4, ob er behandelt oder überwacht werden sollte und mit welcher Behandlung. Wir gestalteten die Frage so, dass eine skalierte Antwort (1-7) anstelle von Ja/Nein gegeben wurde. Dies hatte viele Vorteile: Ermittlung der Unsicherheit, Verwendung von ROC-AUC und Verringerung von Halluzinationen durch Wiederholung der Frage. pic.twitter.com/n0la4Oqgfg
- Dvir Aran (@dvir_a) 27. Januar 2024
Eine der wichtigsten Messgrößen, die in dieser Studie verwendet wurden, war die Fläche unter der Kurve (AUC).
Ohne sich zu sehr in die technischen Details zu vertiefen, ist die ROC-Kurve eine Möglichkeit, die Leistungsfähigkeit eines diagnostischen Tests zu visualisieren.
Sie stellt die Rate der echten Positiven (richtig identifizierte Fälle) der Rate der Falsch-Positiven (falsch identifizierte Fälle) bei verschiedenen Schwellenwerten gegenüber.
Der AUC ist also eine einzige Zahl, die die Leistung des Tests über alle möglichen Schwellenwerte hinweg zusammenfasst, wobei 1,0 für einen perfekten Test und 0,5 für eine Vermutung steht.
In der medizinischen Welt gilt ein AUC von 0,7 bis 0,8 als akzeptabel, 0,8 bis 0,9 als ausgezeichnet und über 0,9 als hervorragend.
In dieser Studie erreichte GPT-4 einen AUC von 0,85, als seine Empfehlungen mit den Meinungen von Schlaganfall-Spezialisten verglichen wurden, was auf ein hohes Maß an Übereinstimmung und eine hervorragende Leistung des AI hinweist.
Im Vergleich zu den verabreichten Behandlungen lag die AUC bei 0,80, was zeigt, dass die Vorschläge von GPT-4 eng mit der realen medizinischen Praxis übereinstimmen.
Also, behandeln oder nicht behandeln? Die GPT-4-Übereinstimmung mit dem Experten lag bei AUC=0,85, mit 20 Unterschieden, und mit der realen Welt lag die AUC bei 0,8. Das ist ähnlich wie die Übereinstimmung zwischen dem Experten und der realen Welt, also ziemlich bemerkenswert! pic.twitter.com/6dDbEa6ycv
- Dvir Aran (@dvir_a) 27. Januar 2024
Diese Ergebnisse sind besonders vielversprechend, da sie darauf hindeuten, dass GPT-4 in der Notaufnahme wertvolle Unterstützung leisten kann, insbesondere wenn ein Facharzt für Neurologie nicht sofort verfügbar ist.
Außerdem zeigte GPT-4 eine bemerkenswerte Fähigkeit zur Vorhersage des Mortalitätsrisikos innerhalb von 90 Tagen nach dem Schlaganfall.
Das KI-Modell identifizierte Hochrisikopatienten mit signifikanter Genauigkeit und übertraf damit einige bestehende, speziell für diesen Zweck trainierte Machine-Learning-Modelle.
Wirklich erstaunlich war jedoch, dass wir GPT-4 auch um eine Schätzung der 90-Tage-Sterblichkeit baten und es mit zwei neueren traditionellen ML-Vorhersagemodellen für diese Aufgabe verglichen. GPT-4 war deutlich besser (AUC=0,89 im Vergleich zu 0,77 und 0,7). pic.twitter.com/FFhDQSmQc5
- Dvir Aran (@dvir_a) 27. Januar 2024
Dies könnte für Ärzte bei der Priorisierung von Behandlungen und der effizienteren Verwaltung von Ressourcen von großem Nutzen sein.
Es ist nicht das erste Mal, dass LLMs erfolgreich für Anwendungen im Gesundheitswesen eingesetzt werden.
Google den kürzlich geschaffenen Articulate Medical Intelligence Explorer (AMIE)die bei der Erfassung von Patienteninformationen während medizinischer Befragungen gleich gut oder sogar besser abschnitten als Fachärzte für Allgemeinmedizin und beim Einfühlungsvermögen besser abschnitten.
Dänische Forscher nutzten LLMs sogar, um zu verstehen, wie Lebensereignisse die Sterblichkeit beeinflussenwobei ihr Modell das nächstbeste um 11% übertrifft.
Andere anspruchsvolle Modelle des maschinellen Lernens haben neue Antibiotika entdeckt oder therapeutische Wirkstoffe in nur wenigen Minuten im Vergleich zu den Monaten oder Jahren herkömmlicher experimenteller Techniken.