ChatGPT продемонстрировал свои экзаменационные способности, набрав одинаковое количество баллов со студентами на нескольких курсах и других тестах, например, на экзамене для юристов. Но сможет ли он добиться удовлетворительных результатов на медицинских экзаменах?
Группа детских врачей протестировала ChatGPT, а именно модель GPT-3.5.
Они протестировали ChatGPT на экзамене по неонатально-перинатальной хирургии, который имеет решающее значение для студентов-педиатров. Исследование, Опубликовано в журнале JAMAВыяснилось, что ChatGPT версии 3.5 набрал всего 46% правильных ответов.
ChatGPT's лучше всего справился с вопросами на запоминание и клинические рассуждения, но его недостатки проявились в вопросах, требующих многологических рассуждений.
В частности, модель получила самый низкий балл (37,5 %) в разделе гастроэнтерологии и самый высокий (78,5 %) в разделе этики - возможно, по иронии судьбы.
Старший автор исследования, Эндрю Бим, является доцентом кафедры биомедицинской информатики Гарвардской медицинской школы.
Он отметил, что стремительный прогресс в области искусственного интеллекта был просто поразительным. "В прошлом году был момент, когда вдруг пять или шесть различных моделей получили оценки 80 процентов и выше", - сказал он, подчеркивая быстрые темпы развития этой области.
Жена Бима, Кристин, преподаватель педиатрии в Гарвардской медицинской школе, также участвовала в исследовании. "Я хотела, чтобы оно не было успешным, поэтому с этой точки зрения я была счастлива", - призналась она.
Однако она признает неизбежность внедрения искусственного интеллекта в здравоохранение, как это уже произошло с МРТ-сканирование с использованием искусственного интеллекта, диагностика глазных заболеваний, и разработка лекарствЭто лишь некоторые из растущего репертуара приложений.
"Очень важно понять, как перенести это в клиническую практику и сделать это безопасным".
Команда планирует провести испытания с более совершенным GPT-4 и применить его на тех же экзаменах по неонатально-перинатальной хирургии и анестезиологии.
Эндрю Бим также отметил, что важно знать, какую версию большой языковой модели вы используете, отметив, что более новая GPT-4 доступна по подписке, в то время как более старая ChatGPT 3.5 все еще находится в свободном доступе.
"Большинство пользователей, скорее всего, привлечет бесплатный инструмент, и им следует помнить о его ограничениях", - сказал он. В глобальном масштабе $20/mo - далеко не ничтожная сумма.
ChatGPT был проверяется на различных экзаменахВ том числе недавнее исследование, в котором он сравнивался с 32 темами для получения степени, показало, что он превзошел или превзошел студентов только на 9/32 экзаменах.
ИИ также проверяется на экзамене для юристов, экзаменах для выпускников (GRE), экзаменах SAT по чтению и письму, экзаменах Advanced Placement, и многие другиеЧасто они получают очень высокие баллы.