Gli ictus ischemici, che si verificano quando il flusso di sangue al cervello viene bloccato, sono una delle principali cause di morte e disabilità.
Un nuovo studio di prestampa ha valutato il potenziale del GPT-4 per aiutare i medici a prendere decisioni critiche nel trattamento dei pazienti con ictus.
Il team di ricerca, composto da esperti del Technion-Israel Institute of Technology in Israele e della Mayo Clinic negli Stati Uniti, ha analizzato i dati di 100 pazienti che avevano manifestato sintomi di ictus acuto.
🚨 Nuovo avviso di preprint. Il GPT-4 ha dimostrato di funzionare bene per la diagnostica, ma raramente come strumento di supporto alle decisioni cliniche. In un lavoro congiunto con @ShellyShahar da @RambamHCC l'abbiamo usato per decidere come trattare i pazienti colpiti da ictus. Come ha funzionato? Incredibilmente bene! https://t.co/8q31Mu2PRB pic.twitter.com/Um4IzULJVS
- Dvir Aran (@dvir_a) 27 gennaio 2024
Il team ha confrontato le raccomandazioni terapeutiche della GPT-4 con quelle fornite da neurologi esperti e con i trattamenti effettivamente somministrati ai pazienti.
L'obiettivo era quello di verificare la corrispondenza tra i suggerimenti dell'IA e il giudizio umano degli esperti e la pratica medica del mondo reale.
Per ogni paziente abbiamo chiesto al GPT-4 se trattare o monitorare e con quale trattamento. Abbiamo progettato il prompt in modo che restituisse una risposta scalare (1-7) invece di un sì/no. Questo ha avuto molti vantaggi: identificare l'incertezza, utilizzare la ROC-AUC e ridurre le allucinazioni replicando la domanda. pic.twitter.com/n0la4Oqgfg
- Dvir Aran (@dvir_a) 27 gennaio 2024
Una delle misure chiave utilizzate in questo studio è l'Area Under the Curve (AUC).
Senza entrare troppo nei tecnicismi, la curva ROC è un modo per visualizzare le prestazioni di un test diagnostico.
Traccia il tasso di veri positivi (casi correttamente identificati) rispetto al tasso di falsi positivi (casi erroneamente identificati) a varie soglie.
L'AUC, quindi, è un singolo numero che riassume le prestazioni del test su tutte le possibili soglie, con 1,0 che rappresenta un test perfetto e 0,5 che rappresenta un'ipotesi.
Nel mondo medico, un'AUC compresa tra 0,7 e 0,8 è considerata accettabile, tra 0,8 e 0,9 è eccellente e oltre 0,9 è eccezionale.
In questo studio, il GPT-4 ha ottenuto un'AUC di 0,85 quando le sue raccomandazioni sono state confrontate con le opinioni degli specialisti dell'ictus, indicando un alto livello di accordo e un'ottima performance dell'IA.
Rispetto ai trattamenti somministrati, l'AUC è risultata pari a 0,80, dimostrando che i suggerimenti del GPT-4 erano strettamente allineati alla pratica medica del mondo reale.
Quindi, trattare o non trattare? La concordanza del GPT-4 con l'esperto è stata di AUC=0,85, con 20 differenze, mentre con il mondo reale l'AUC è stata di 0,8. Questi valori sono simili all'accordo tra l'esperto e il mondo reale, quindi piuttosto notevoli! pic.twitter.com/6dDbEa6ycv
- Dvir Aran (@dvir_a) 27 gennaio 2024
Questi risultati sono particolarmente promettenti perché suggeriscono che il GPT-4 può potenzialmente fornire un valido supporto nei pronto soccorso, soprattutto quando uno specialista in neurologia potrebbe non essere immediatamente disponibile.
Inoltre, la GPT-4 ha mostrato una notevole capacità di predire il rischio di mortalità entro 90 giorni dall'ictus.
Il modello di intelligenza artificiale ha identificato i pazienti ad alto rischio con una precisione significativa, superando alcuni modelli di apprendimento automatico esistenti addestrati specificamente per questo scopo.
Ma ciò che è stato davvero sorprendente è che abbiamo chiesto al GPT-4 di stimare la mortalità a 90 giorni e lo abbiamo confrontato con due recenti modelli di previsione ML tradizionali per questo compito. Il GPT-4 è risultato significativamente migliore (AUC=0,89 rispetto a 0,77 e 0,7). pic.twitter.com/FFhDQSmQc5
- Dvir Aran (@dvir_a) 27 gennaio 2024
Questo potrebbe essere incredibilmente utile ai medici per stabilire le priorità dei trattamenti e gestire le risorse in modo più efficace.
Non è la prima volta che gli LLM vengono utilizzati con successo per applicazioni sanitarie.
Google recentemente creato Articulate Medical Intelligence Explorer (AMIE)che hanno eguagliato o addirittura superato i medici di base certificati nel raccogliere informazioni sui pazienti durante i colloqui medici e hanno ottenuto punteggi più alti in termini di empatia.
I ricercatori danesi hanno persino utilizzato i LLM per capire come gli eventi della vita hanno influenzato la mortalitàIl loro modello ha battuto il migliore di 11%.
Altri modelli sofisticati di apprendimento automatico hanno scoperto nuovi antibiotici o composti terapeutici in pochi minuti rispetto ai mesi o agli anni delle tecniche sperimentali tradizionali.