Los accidentes cerebrovasculares isquémicos, que se producen cuando se bloquea el flujo sanguíneo al cerebro, son una de las principales causas de muerte y discapacidad.
Un nuevo estudio previo a la impresión evaluó el potencial de la GPT-4 para ayudar a los médicos a tomar decisiones críticas en el tratamiento de pacientes con ictus.
El equipo de investigación, formado por expertos del Instituto Tecnológico Technion-Israel de Israel y de la Clínica Mayo de EE.UU., analizó los datos de 100 pacientes que habían presentado síntomas de ictus agudo.
🚨Nueva alerta de preimpresión. Se ha demostrado que la GPT-4 funciona bien para el diagnóstico, pero rara vez como herramienta de apoyo a la toma de decisiones clínicas. En un trabajo conjunto con @ShellyShahar de @RambamHCC lo utilizamos para decidir cómo tratar a los pacientes con ictus. ¿Qué tal funcionó? Asombrosamente bien. https://t.co/8q31Mu2PRB pic.twitter.com/Um4IzULJVS
- Dvir Aran (@dvir_a) 27 de enero de 2024
El equipo comparó las recomendaciones de tratamiento de GPT- 4 con las dadas por neurólogos experimentados y los tratamientos reales administrados a los pacientes.
El objetivo era comprobar hasta qué punto las sugerencias de la IA coincidían con la opinión de expertos humanos y la práctica médica real.
Para cada paciente preguntamos al GPT-4 si había que tratar o vigilar y con qué tratamiento. Diseñamos la pregunta para que devolviera una respuesta escalada (1-7) en lugar de sí/no. Esto tenía muchas ventajas: identificar la incertidumbre, utilizar ROC-AUC y reducir las alucinaciones al replicar la pregunta. pic.twitter.com/n0la4Oqgfg
- Dvir Aran (@dvir_a) 27 de enero de 2024
Una de las medidas clave utilizadas en este estudio fue el área bajo la curva (AUC).
Sin entrar demasiado en tecnicismos, la curva ROC es una forma de visualizar el rendimiento de una prueba diagnóstica.
Representa la tasa de verdaderos positivos (casos correctamente identificados) frente a la tasa de falsos positivos (casos incorrectamente identificados) con distintos umbrales.
El AUC, por tanto, es un número único que resume el rendimiento de la prueba en todos los umbrales posibles, donde 1,0 representa una prueba perfecta y 0,5 una suposición.
En el mundo de la medicina, un AUC de 0,7 a 0,8 se considera aceptable, de 0,8 a 0,9 es excelente y por encima de 0,9 es sobresaliente.
En este estudio, la GPT-4 alcanzó un AUC de 0,85 cuando sus recomendaciones se compararon con las opiniones de los especialistas en ictus, lo que indica un alto nivel de acuerdo y un excelente rendimiento de la IA.
En comparación con los tratamientos administrados, el AUC fue de 0,80, lo que demuestra que las sugerencias de GPT-4 se ajustaban estrechamente a la práctica médica real.
Entonces, ¿tratar o no tratar? La concordancia de la GPT-4 con el experto fue de AUC=0,85, con 20 diferencias, y con el mundo real la AUC fue de 0,8. Estos valores son similares a los de la GPT-4 con el experto. Estos valores son similares a la concordancia entre el experto y el mundo real, ¡bastante notables! pic.twitter.com/6dDbEa6ycv
- Dvir Aran (@dvir_a) 27 de enero de 2024
Estos resultados son especialmente prometedores porque sugieren que la GPT-4 puede proporcionar un valioso apoyo en los servicios de urgencias, sobre todo cuando no se dispone inmediatamente de un especialista en neurología.
Además, la GPT-4 mostró una notable capacidad para predecir el riesgo de mortalidad en los 90 días posteriores al ictus.
El modelo de IA identificó a los pacientes de alto riesgo con una precisión significativa, superando a algunos modelos de aprendizaje automático existentes entrenados específicamente para este fin.
Pero lo realmente sorprendente fue que también pedimos a GPT-4 que estimara la mortalidad a 90 días y lo comparamos con dos modelos de predicción ML tradicionales recientes para esta tarea. GPT-4 fue significativamente mejor (AUC=0,89 frente a 0,77 y 0,7). pic.twitter.com/FFhDQSmQc5
- Dvir Aran (@dvir_a) 27 de enero de 2024
Esto podría ser increíblemente útil para los médicos a la hora de priorizar los tratamientos y gestionar los recursos de forma más eficaz.
No es la primera vez que los LLM se utilizan con éxito en aplicaciones sanitarias.
Google recientemente creado Articulate Medical Intelligence Explorer (AMIE)que igualaban o incluso superaban a los médicos de atención primaria titulados en la recopilación de información sobre los pacientes durante las entrevistas médicas y obtenían puntuaciones más altas en empatía.
Los investigadores daneses incluso utilizaron los LLM para comprender cómo afectan los acontecimientos vitales a la mortalidady su modelo supera al siguiente mejor en 11%.
Otros modelos sofisticados de aprendizaje automático han descubierto nuevos antibióticos o compuestos terapéuticos en cuestión de minutos, frente a los meses o años de las técnicas experimentales tradicionales.