Клод 3 Опус поражает всех магистров в подведении итогов работы над книгой

8 апреля 2024 года

  • LLM полезны для резюмирования объемных текстов, но могут испытывать трудности с верностью и релевантностью.
  • Исследователи создали набор данных и протестировали LLM, чтобы выяснить, какой из них лучше всего справляется с резюмированием длинных текстов.
  • Клод 3 Опус показал значительно лучшие результаты, чем другие LLM, включая GPT-4

Ученые опубликовали результаты исследования, в котором сравнивали точность и качество резюме, составляемых LLM. Claude 3 Opus показал особенно хорошие результаты, но люди все равно имеют преимущество.

Модели искусственного интеллекта чрезвычайно полезны для обобщения длинных документов, когда у вас нет времени или желания их читать.

Роскошь растущих контекстных окон означает, что мы можем предлагать моделям более длинные документы, что ставит под сомнение их способность всегда правильно излагать факты в резюме.

Исследователи из Массачусетского университета в Амхерсте, компании Adobe, Института искусственного интеллекта Аллена и Принстонского университета, опубликовал исследование в котором пытались выяснить, насколько хорошо модели искусственного интеллекта справляются с резюмированием книжного контента (>100 тыс. записей).

ФАБЛЫ

Они выбрали 26 книг, опубликованных в 2023 и 2024 годах, и попросили разных магистрантов сделать краткое изложение текстов. Последние даты публикации были выбраны, чтобы избежать возможного загрязнения данных в исходных обучающих данных модели.

После того как модели составили резюме, они использовали GPT-4 для извлечения из них деконтекстуализированных утверждений. Затем исследователи наняли аннотаторов, прочитавших книги, и попросили их проверить утверждения на достоверность.

LLM обобщает книгу, GPT-4 извлекает утверждения, а человеческие аннотаторы проверяют их. Источник: arXiv

Полученные данные были собраны в набор данных под названием "Аннотации верности для суммирования длины книги" (FABLES). FABLES содержит 3 158 аннотаций верности на уровне утверждений в 26 повествовательных текстах.

Результаты теста показали, что Claude 3 Opus - "самый верный обобщающий редактор книг со значительным отрывом": более 90% его утверждений были проверены как верные или точные.

GPT-4 занял отдаленное второе место: только 78% его утверждений были проверены на верность человеческими аннотаторами.

Процент утверждений, извлеченных из сгенерированных LLM резюме, оцененных людьми как верные, неверные, частично поддерживающие или не поддающиеся проверке. Источник: arXiv

Трудная часть

Все тестируемые модели, похоже, испытывали трудности с одними и теми же вещами. Большинство фактов, в которых модели ошибались, касались событий или состояний персонажей и отношений.

В статье отмечается, что "большинство из этих утверждений можно опровергнуть только с помощью многоходовых рассуждений над доказательствами, что подчеркивает сложность задачи и ее отличие от существующих способов проверки фактов".

Магистранты также часто упускали важную информацию в своих резюме. Кроме того, они слишком акцентировали внимание на содержании в конце книг, пропуская важные материалы ближе к началу.

Заменит ли ИИ человеческих аннотаторов?

Человеческие аннотаторы или специалисты по проверке фактов стоят дорого. Исследователи потратили $5,200, чтобы человеческие аннотаторы проверили утверждения в резюме ИИ.

Могла ли модель искусственного интеллекта выполнить эту работу за меньшую сумму? Простой поиск фактов Это то, с чем Клод 3 справляется хорошо, но его производительность при проверке утверждений, требующих более глубокого понимания содержания, менее последовательна.

Когда им предъявляли извлеченные утверждения и предлагали проверить их, все модели ИИ не смогли превзойти человеческих аннотаторов. Особенно плохо они справлялись с выявлением неверных утверждений.

Несмотря на то, что Claude 3 Opus оказался лучшим верификатором претензий, исследователи пришли к выводу, что он "в конечном итоге работает слишком плохо, чтобы быть надежным авторейтером".

Когда дело доходит до понимания нюансов, сложных человеческих взаимоотношений, сюжетных моментов и мотиваций персонажей в длинном повествовании, кажется, что люди пока еще имеют преимущество.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения