Le GPT-4V offre de grands avantages pour la sélection des essais cliniques

13 février 2024

Le dépistage des patients pour trouver des participants appropriés aux essais cliniques est une tâche laborieuse, coûteuse et sujette aux erreurs, mais l'IA pourrait bientôt y remédier.

Une équipe de chercheurs du Brigham and Women's Hospital, de la Harvard Medical School et du Mass General Brigham Personalized Medicine a mené une étude pour déterminer si un modèle d'IA pouvait traiter les dossiers médicaux afin de trouver des candidats appropriés pour les essais cliniques.

Ils ont utilisé GPT-4V, le LLM d'OpenAI avec traitement d'images, activé par Retrieval-Augmented Generation (RAG) pour traiter les dossiers médicaux électroniques (EHR) et les notes cliniques des candidats potentiels.

Les LLM sont pré-entraînés à l'aide d'un ensemble de données fixe et ne peuvent répondre qu'à des questions basées sur ces données. Le RAG est une technique qui permet à un LLM de récupérer des données à partir de sources externes telles que l'Internet ou les documents internes d'une organisation.

Lorsque les participants sont sélectionnés pour un essai clinique, leur aptitude est déterminée par une liste de critères d'inclusion et d'exclusion. Cela implique normalement que du personnel formé passe au peigne fin les DSE de centaines ou de milliers de patients pour trouver ceux qui correspondent aux critères.

Les chercheurs ont recueilli les données d'un essai visant à recruter des patients souffrant d'insuffisance cardiaque symptomatique. Ils ont utilisé ces données pour voir si le GPT-4V avec RAG pouvait faire le travail plus efficacement que le personnel de l'étude tout en maintenant la précision.

Les données structurées contenues dans les dossiers médicaux électroniques des candidats potentiels pourraient être utilisées pour déterminer 5 des 6 critères d'inclusion et 5 des 17 critères d'exclusion de l'essai clinique. C'est la partie la plus facile.

Les 13 critères restants ont dû être déterminés en interrogeant les données non structurées des notes cliniques de chaque patient, ce qui constitue la partie laborieuse pour laquelle les chercheurs espéraient l'aide de l'IA.

Résultats

Les chercheurs ont d'abord obtenu les évaluations structurées réalisées par le personnel de l'étude et les notes cliniques des deux dernières années.

Ils ont mis au point un flux de travail pour un système de réponse aux questions basé sur les notes cliniques et reposant sur l'architecture RAG et GPT-4V, qu'ils ont appelé RECTIFIER (RAG-Enabled Clinical Trial Infrastructure for Inclusion Exclusion Review).

Les notes de 100 patients ont été utilisées comme ensemble de données de développement, celles de 282 patients comme ensemble de données de validation et celles de 1894 patients comme ensemble de test.

Un clinicien expert a examiné en aveugle les dossiers des patients pour répondre aux questions d'éligibilité et déterminer les réponses de référence. Ces réponses ont ensuite été comparées à celles du personnel de l'étude et de RECTIFIER sur la base des critères suivants :

  • Sensibilité - Capacité d'un test à identifier correctement les patients éligibles à l'essai (vrais positifs).
  • Spécificité - Capacité d'un test à identifier correctement les patients qui ne sont pas éligibles pour l'essai (vrais négatifs).
  • Précision - proportion globale de classifications correctes (à la fois vraies positives et vraies négatives).
  • Coefficient de corrélation de Matthews (MCC) - Mesure utilisée pour évaluer la capacité du modèle à sélectionner ou à exclure une personne. Une valeur de 0 correspond à un jeu de pile ou face et une valeur de 1 correspond à 100% de réussite.
Mesures de performance de RECTIFIER et de Study Staff pour déterminer l'éligibilité globale sur la base de 13 questions de l'ensemble des tests. Source : arXiv

RECTIFIER a fait aussi bien, et dans certains cas mieux, que le personnel de l'étude. Le résultat le plus significatif de l'étude provient probablement de la comparaison des coûts.

Bien qu'aucun chiffre n'ait été donné concernant la rémunération du personnel de l'étude, celle-ci a dû être nettement supérieure au coût de l'utilisation du GPT-4V, qui variait entre $0,02 et $0,10 par patient. L'utilisation de l'IA pour évaluer un groupe de 1 000 candidats potentiels prendrait quelques minutes et coûterait environ $100.

Les chercheurs ont conclu que l'utilisation d'un modèle d'IA tel que GPT-4V avec RAG peut maintenir ou améliorer la précision de l'identification des candidats aux essais cliniques, et ce de manière plus efficace et beaucoup moins coûteuse que l'utilisation de personnel humain.

Ils ont souligné la nécessité de faire preuve de prudence avant de confier les soins médicaux à des systèmes automatisés, mais il semble que l'IA fera un meilleur travail que nous si elle est correctement dirigée.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation