Ишемические инсульты, возникающие при блокировании притока крови к мозгу, являются одной из основных причин смерти и инвалидности.
Новый предпечатное исследование оценили потенциал GPT-4 для помощи врачам в принятии важных решений при лечении пациентов с инсультом.
Исследовательская группа, в которую вошли специалисты из Техниона - Израильского технологического института в Израиле и Клиники Майо в США, проанализировала данные 100 пациентов, у которых наблюдались симптомы острого инсульта.
🚨 Предупреждение о новом препринте. GPT-4 хорошо зарекомендовал себя в диагностике, но редко используется в качестве инструмента поддержки принятия клинических решений. В совместной работе с @ShellyShahar с сайта @RambamHCC Мы использовали его для принятия решений о том, как лечить пациентов с инсультом. Как это было сделано? Удивительно хорошо! https://t.co/8q31Mu2PRB pic.twitter.com/Um4IzULJVS
- Двир Аран (@dvir_a) 27 января 2024 года
Команда сравнила рекомендации по лечению GPT- 4 с рекомендациями опытных неврологов и фактическим лечением, назначенным пациентам.
Цель заключалась в том, чтобы проверить, насколько предложения искусственного интеллекта соответствуют экспертным оценкам человека и реальной медицинской практике.
Для каждого пациента мы задавали в GPT-4 вопрос о том, лечить или наблюдать, и с каким лечением. Мы разработали подсказку так, чтобы она давала шкалированный ответ (1-7), а не "да/нет". Это имело много преимуществ: выявление неопределенности, использование ROC-AUC и уменьшение галлюцинаций за счет повторения вопроса. pic.twitter.com/n0la4Oqgfg
- Двир Аран (@dvir_a) 27 января 2024 года
Одним из ключевых показателей, использованных в данном исследовании, была площадь под кривой (AUC).
Если не вдаваться в технические подробности, ROC-кривая - это способ визуализировать, насколько хорошо работает диагностический тест.
Он показывает соотношение истинных положительных результатов (правильно идентифицированных случаев) и ложных положительных результатов (неправильно идентифицированных случаев) при различных пороговых значениях.
Таким образом, AUC - это единое число, которое суммирует результаты теста по всем возможным пороговым значениям, где 1,0 означает идеальный тест, а 0,5 - предположение.
В медицинском мире показатель AUC от 0,7 до 0,8 считается приемлемым, от 0,8 до 0,9 - отличным, а выше 0,9 - выдающимся.
В данном исследовании при сравнении рекомендаций GPT-4 с мнением специалистов по инсультам AUC составила 0,85, что свидетельствует о высоком уровне согласия и отличной эффективности ИИ.
AUC по сравнению с назначенным лечением составила 0,80, что свидетельствует о том, что рекомендации GPT-4 полностью соответствуют реальной медицинской практике.
Так лечить или не лечить? Согласие GPT-4 с экспертом составило AUC=0,85 при 20 различиях, а с реальным миром AUC составила 0,8. Эти показатели схожи с соглашением между экспертом и реальным миром, что весьма примечательно! pic.twitter.com/6dDbEa6ycv
- Двир Аран (@dvir_a) 27 января 2024 года
Эти результаты особенно многообещающи, так как предполагают, что GPT-4 может потенциально оказать ценную поддержку в отделениях неотложной помощи, особенно когда специалист по неврологии не может быть доступен немедленно.
Более того, GPT-4 продемонстрировал замечательную способность предсказывать риск смертности в течение 90 дней после инсульта.
Модель искусственного интеллекта выявила пациентов с высоким риском с высокой точностью, превзойдя некоторые существующие модели машинного обучения, специально обученные для этой цели.
Но что действительно поразило, так это то, что мы также попросили GPT-4 оценить 90-дневную смертность и сравнили его с двумя недавними традиционными ML-моделями прогнозирования для этой задачи. GPT-4 оказалась значительно лучше (AUC=0,89 по сравнению с 0,77 и 0,7). pic.twitter.com/FFhDQSmQc5
- Двир Аран (@dvir_a) 27 января 2024 года
Это может быть невероятно полезно для врачей, чтобы расставить приоритеты в лечении и эффективнее распоряжаться ресурсами.
Это не первый случай успешного применения LLM в здравоохранении.
Google Недавно созданный Articulate Medical Intelligence Explorer (AMIE)Они сравнялись или даже превзошли сертифицированных врачей первичного звена в сборе информации о пациентах во время медицинских интервью и получили более высокие баллы за эмпатию.
Датские исследователи даже использовали LLM для понять, как события жизни влияют на смертностьИх модель опередила следующую по популярности на 11%.
Другие сложные модели машинного обучения открыли новые антибиотики или терапевтических соединений за считанные минуты по сравнению с месяцами или годами традиционных экспериментальных методик.