GPT-4V дает большие преимущества при скрининге клинических испытаний

13 февраля 2024 года

Отбор пациентов для поиска подходящих участников клинических испытаний - трудоемкая, дорогостоящая и чреватая ошибками задача, но скоро искусственный интеллект сможет решить эту проблему.

Группа исследователей из Женской больницы Бригама, Гарвардской медицинской школы и отделения персонализированной медицины Mass General Brigham провела исследование, чтобы выяснить, может ли модель искусственного интеллекта обрабатывать медицинские записи для поиска подходящих кандидатов на участие в клинических испытаниях.

Они использовали GPT-4V, LLM от OpenAI с обработкой изображений с помощью технологии Retrieval-Augmented Generation (RAG) для обработки электронных медицинских карт (EHR) и клинических записей потенциальных кандидатов.

LLM предварительно обучаются на фиксированном наборе данных и могут отвечать на вопросы только на основе этих данных. RAG - это техника, позволяющая LLM извлекать данные из внешних источников, таких как Интернет или внутренние документы организации.

Когда участники отбираются для клинического испытания, их пригодность определяется по списку критериев включения и исключения. Обычно для этого обученному персоналу приходится прочесывать электронные истории болезней сотен или тысяч пациентов, чтобы найти тех, кто соответствует критериям.

Исследователи собрали данные исследования, целью которого было привлечение пациентов с симптоматической сердечной недостаточностью. Они использовали эти данные, чтобы проверить, сможет ли GPT-4V с RAG выполнять работу более эффективно, чем это делал персонал исследования, сохраняя при этом точность.

Структурированные данные из электронных медицинских карт потенциальных кандидатов могут быть использованы для определения 5 из 6 критериев включения и 5 из 17 критериев исключения для клинического испытания. Это самая простая часть.

Оставшиеся 13 критериев необходимо было определить, изучив неструктурированные данные в истории болезни каждого пациента, и именно с этой трудоемкой частью, как надеялись исследователи, поможет справиться искусственный интеллект.

Результаты

Сначала исследователи получили структурированные оценки, выполненные персоналом исследования, и клинические записи за последние два года.

Они разработали рабочий процесс для системы ответов на вопросы на основе клинических заметок, основанной на архитектуре RAG и GPT-4V, и назвали его RECTIFIER (RAG-Enabled Clinical Trial Infrastructure for Inclusion Exclusion Review).

Записи 100 пациентов были использованы в качестве набора данных для разработки, 282 пациента - в качестве набора данных для проверки, а 1894 пациента - в качестве набора данных для тестирования.

Врач-эксперт провел слепой анализ карт пациентов, чтобы ответить на вопросы о соответствии критериям и определить "золотой стандарт" ответов. Затем они сравнивались с ответами персонала исследования и RECTIFIER на основе следующих критериев:

  • Чувствительность - способность теста правильно определить пациентов, которые могут участвовать в исследовании (истинные положительные результаты).
  • Специфичность - способность теста правильно идентифицировать пациентов, не подходящих для участия в исследовании (истинно отрицательные результаты).
  • Точность - общая доля правильных классификаций (как истинно положительных, так и истинно отрицательных).
  • Коэффициент корреляции Мэтьюса (MCC) - метрика, используемая для измерения того, насколько хорошо модель выбирает или исключает человека. Значение 0 равно подбрасыванию монеты, а 1 означает, что модель правильно выбирает в 100% случаев.
Показатели эффективности RECTIFIER и Study Staff для определения общей пригодности на основе 13 вопросов из тестового набора. Источник: arXiv

RECTIFIER показал себя не хуже, а в некоторых случаях и лучше, чем сотрудники, участвовавшие в исследовании. Вероятно, самым значительным результатом исследования стало сравнение стоимости.

Хотя данные о вознаграждении персонала исследования не приводятся, оно должно было быть значительно больше, чем стоимость использования GPT-4V, которая варьировалась от $0,02 до $0,10 на пациента. Использование искусственного интеллекта для оценки пула из 1000 потенциальных кандидатов заняло бы несколько минут и стоило бы около $100.

Исследователи пришли к выводу, что использование модели искусственного интеллекта, подобной GPT-4V с RAG, позволяет сохранить или повысить точность определения кандидатов на участие в клинических испытаниях, причем сделать это более эффективно и гораздо дешевле, чем с помощью человеческого персонала.

Они отметили необходимость осторожности при передаче медицинского обслуживания автоматизированным системам, но, похоже, что при правильном управлении ИИ справится с этой задачей лучше, чем мы.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения