Традиционный подход к научным исследованиям в значительной степени опирается на рецензирование, когда другие ученые тщательно оценивают и критикуют исследование, прежде чем оно будет опубликовано.
Однако эта традиционная система испытывает трудности из-за растущего числа заявок и нехватки людей-рецензентов.
"Исследователям становится все труднее получать качественные отзывы от рецензентов, - говорит Джеймс Зоу из Стэнфордского университета.
В ответ на этот вызов Цзоу и его команда обратился к ChatGPT чтобы выяснить, может ли чатбот давать четкие и объективные отзывы на научные работы. С помощью GPT-4 они проанализировали более 3000 рукописей из журнала Nature и более 1700 статей с Международной конференции по изучению представлений (ICLR).
Сравнивая отзывы ChatGPT с отзывами человеческих рецензентов на те же статьи, они обнаружили, что более 50% комментариев ИИ на статьи Nature и более 77% на статьи ICLR совпали с замечаниями человеческих рецензентов.
Расширив эксперимент, команда также использовала ChatGPT для оценки нескольких сотен еще не прошедших рецензирование статей на серверах препринтов.
Собрав отзывы 308 авторов в области ИИ и вычислительной биологии, они обнаружили, что более 82% из них сочли отзывы ChatGPT в целом более полезными, чем те, которые они ранее получали от человеческих рецензентов.
Несмотря на эти многообещающие результаты, сохраняются опасения по поводу способности ИИ предоставлять тонкие и технически подробные отзывы.
Кроме того, обратная связь ChatGPT может быть непредсказуемой, результаты могут меняться в зависимости от содержания исследования.
Цзоу признает эти недостатки, отмечая, что некоторые исследователи сочли обратную связь ChatGPT слишком расплывчатой.
Исследователи не теряют оптимизма по поводу того, что GPT-4 может помочь в некоторых тяжелых работах по рецензированию, отмечая более очевидные ошибки и несоответствия.
Подробнее об исследовании
ChatGPT - в частности, модель GPT-4 - практически эффективна при анализе научных исследований и предоставлении быстрой обратной связи.
Вот более подробная информация об исследовании:
- Цель: Исследование выявляет трудности, связанные с получением высококачественных экспертных оценок. Цель исследования - изучить возможности использования больших языковых моделей (БЯМ), таких как GPT-4, для предоставления научных отзывов на исследовательские рукописи.
- Дизайн модели: Исследователи создали автоматизированный конвейер с использованием GPT-4 для предоставления комментариев к полным PDF-файлам научных статей. Этот конвейер предназначен для оценки того, насколько хорошо генерируемые LLM отзывы могут дополнить или помочь существующим процессам рецензирования в научных публикациях.
- Результаты: Качество отзывов GPT-4 оценивалось в ходе двух исследований. Первое включало ретроспективный анализ, в котором сгенерированные отзывы сравнивались с отзывами человеческих рецензентов на 3 096 статей из 15 журналов семейства Nature и 1 709 статей с конференции по машинному обучению ICLR. Количественно оценивалось совпадение моментов, поднятых GPT-4 и человеческими рецензентами.
- Во втором исследовании приняли участие 308 исследователей из 110 американских институтов в области ИИ и вычислительной биологии. Эти исследователи высказали свое мнение об обратной связи, генерируемой системой GPT-4, в своих собственных работах.
- Выводы: Исследователи обнаружили значительное совпадение между пунктами, поднятыми GPT-4 и человеческими рецензентами, и положительное восприятие обратной связи, генерируемой LLM, большинством участников пользовательского исследования. Результаты свидетельствуют о том, что LLM и человеческая обратная связь могут дополнять друг друга, хотя были выявлены и недостатки обратной связи, генерируемой LLM.
GPT-4 почти наверняка подвергался сотням тысяч научных исследований, которые вероятно, способствует способности модели точно анализировать и критиковать исследования, подобно человеческим рецензентам.
ИИ все больше вплетается в академические процессы. Недавно журнал Nature опросили 1 600 исследователей Они спросили, как они относятся к генеративным ИИ, таким как ChatGPT, и хотя многие высказали опасения по поводу предвзятости, большинство признали, что их интеграция в научный процесс неизбежна.