Les accidents vasculaires cérébraux ischémiques, qui surviennent lorsque la circulation sanguine vers le cerveau est bloquée, sont une cause majeure de décès et d'invalidité.
Une nouvelle étude pré-imprimée a évalué le potentiel de la GPT-4 pour aider les médecins à prendre des décisions cruciales dans le traitement des patients victimes d'un accident vasculaire cérébral.
L'équipe de recherche, composée d'experts du Technion-Israel Institute of Technology en Israël et de la Mayo Clinic aux États-Unis, a analysé les données de 100 patients qui présentaient des symptômes d'accident vasculaire cérébral aigu.
🚨New preprint alert. Le GPT-4 s'est avéré efficace pour le diagnostic, mais rarement comme outil d'aide à la décision clinique. Dans le cadre d'une collaboration avec @ShellyShahar de @RambamHCC nous l'avons utilisé pour décider de la manière de traiter les patients victimes d'un accident vasculaire cérébral. Comment cela s'est-il passé ? Incroyablement bien ! https://t.co/8q31Mu2PRB pic.twitter.com/Um4IzULJVS
- Dvir Aran (@dvir_a) 27 janvier 2024
L'équipe a comparé les recommandations de traitement du GPT-4 à celles données par des neurologues expérimentés et aux traitements réellement administrés aux patients.
L'objectif était de voir dans quelle mesure les suggestions de l'IA correspondaient au jugement d'experts humains et à la pratique médicale réelle.
Pour chaque patient, nous avons demandé au GPT-4 s'il fallait traiter ou surveiller et avec quel traitement. Nous avons conçu le questionnaire de manière à ce qu'il renvoie une réponse graduée (1-7) plutôt qu'un oui/non. Cette méthode présente de nombreux avantages : identification de l'incertitude, utilisation de la ROC-AUC et réduction des hallucinations grâce à la reproduction de la question. pic.twitter.com/n0la4Oqgfg
- Dvir Aran (@dvir_a) 27 janvier 2024
L'une des mesures clés utilisées dans cette étude est l'aire sous la courbe (AUC).
Sans entrer dans les détails techniques, la courbe ROC est un moyen de visualiser les performances d'un test de diagnostic.
Il représente le taux de vrais positifs (cas correctement identifiés) par rapport au taux de faux positifs (cas incorrectement identifiés) à différents seuils.
La SSC est donc un chiffre unique qui résume les performances du test pour tous les seuils possibles, 1,0 représentant un test parfait et 0,5 une supposition.
Dans le monde médical, une AUC de 0,7 à 0,8 est considérée comme acceptable, de 0,8 à 0,9 comme excellente, et supérieure à 0,9 comme remarquable.
Dans cette étude, le GPT-4 a atteint une AUC de 0,85 lorsque ses recommandations ont été comparées aux opinions des spécialistes de l'AVC, ce qui indique un niveau élevé de concordance et une excellente performance de l'IA.
Par rapport aux traitements administrés, l'AUC était de 0,80, ce qui montre que les suggestions du GPT-4 étaient étroitement alignées sur la pratique médicale réelle.
Alors, faut-il traiter ou ne pas traiter ? La concordance du GPT-4 avec l'expert était une AUC de 0,85, avec 20 différences, et avec le monde réel, l'AUC était de 0,8. Ces résultats sont similaires à la concordance entre l'expert et le monde réel, ce qui est assez remarquable ! pic.twitter.com/6dDbEa6ycv
- Dvir Aran (@dvir_a) 27 janvier 2024
Ces résultats sont particulièrement prometteurs car ils suggèrent que le GPT-4 peut potentiellement apporter une aide précieuse dans les salles d'urgence, en particulier lorsqu'un spécialiste en neurologie n'est pas immédiatement disponible.
En outre, la GPT-4 a montré une capacité remarquable à prédire le risque de mortalité dans les 90 jours suivant l'accident vasculaire cérébral.
Le modèle d'IA a identifié les patients à haut risque avec une grande précision, surpassant certains modèles d'apprentissage automatique existants spécifiquement formés à cet effet.
Mais ce qui est vraiment étonnant, c'est que nous avons également demandé à GPT-4 d'estimer la mortalité à 90 jours et nous l'avons comparé à deux modèles de prédiction ML traditionnels récents pour cette tâche. GPT-4 s'est avéré nettement meilleur (AUC=0,89 par rapport à 0,77 et 0,7). pic.twitter.com/FFhDQSmQc5
- Dvir Aran (@dvir_a) 27 janvier 2024
Cela pourrait s'avérer extrêmement utile pour les médecins afin de hiérarchiser les traitements et de gérer les ressources plus efficacement.
Ce n'est pas la première fois que les LLM sont utilisés avec succès pour des applications dans le domaine de la santé.
Google a récemment créé Articulate Medical Intelligence Explorer (AMIE)qui ont égalé, voire dépassé, les médecins de premier recours certifiés par le conseil d'administration dans la collecte d'informations sur les patients lors des entretiens médicaux et qui ont obtenu de meilleurs résultats en matière d'empathie.
Des chercheurs danois ont même utilisé des LLM pour comprendre comment les événements de la vie affectent la mortalitéLeur modèle devance le suivant de 11%.
Autres modèles sophistiqués d'apprentissage automatique ont découvert de nouveaux antibiotiques ou des composés thérapeutiques en quelques minutes seulement, alors que les techniques expérimentales traditionnelles prennent des mois ou des années.