LLM производят более неточные и смещенные результаты при более длинных входных данных

29 февраля 2024 года

LLM

Несмотря на быстрый прогресс в области LLM, наше понимание того, как эти модели справляются с длинными входными данными, остается недостаточным.

Мош Леви, Алон Якоби и Йоав Голдберг из Университета Бар-Илана и Института искусственного интеллекта Аллена исследовали, как меняется производительность больших языковых моделей (LLM) при изменении длины входного текста, который им предлагается обработать.

Специально для этого они разработали систему рассуждений, которая позволила им изучить влияние длины входных данных на рассуждения LLM в контролируемой среде.

Система вопросов предлагала различные варианты одного и того же вопроса, каждый из которых содержал необходимую для ответа информацию, дополненную дополнительным, не относящимся к делу текстом разной длины и типа. 

Это позволяет выделить длину входного сигнала в качестве переменной, гарантируя, что изменения в работе модели могут быть отнесены непосредственно к длине входного сигнала.

Основные выводы

Леви, Якоби и Голдберг обнаружили, что LLM демонстрируют заметное снижение эффективности рассуждений при длине входных данных намного меньше той, которую, как утверждают разработчики, они могут обрабатывать. Они задокументировали свои выводы в данном исследовании.

Спад наблюдался во всех версиях набора данных, что указывает на системную проблему с обработкой более длинных входных данных, а не на проблему, связанную с конкретными образцами данных или архитектурой модели. 

Как пишут исследователи: "Наши результаты свидетельствуют о заметном снижении эффективности рассуждений LLM при гораздо меньшей длине входных данных, чем их технический максимум. Мы показали, что тенденция к ухудшению проявляется в каждой версии нашего набора данных, хотя и с разной интенсивностью".

 

По мере увеличения размера входных данных способность выполнять задачи рассуждения снижается. Эти входные данные состоят из релевантного (выделено красным) и нерелевантного (показано серым) текста, который берется из разных мест и постепенно расширяется. Для точного ответа необходимо идентифицировать два конкретных сегмента текста, которые могут быть расположены в произвольном порядке в исходном материале. Данные о производительности получены из 600 образцов. Источник: Via ArXiv.

Более того, исследование показывает, что традиционные метрики, такие как недоумение, обычно используемые для оценки LLM, не коррелируют с производительностью моделей в задачах рассуждения с длинными входными данными. 

Дальнейшее исследование показало, что снижение производительности зависит не только от наличия нерелевантной информации (подложки), но наблюдается даже тогда, когда такая подложка состоит из дублирующей релевантной информации.


Это говорит о том, что задача LLM заключается в отфильтровывании шумов и обработке длинных текстовых последовательностей.

Игнорирование инструкций

Одной из критических областей, выявленных в ходе исследования, является тенденция LLM игнорировать инструкции, встроенные во входные данные, по мере увеличения длины входных данных. 

Модели также иногда генерировали ответы, указывающие на неопределенность или отсутствие достаточной информации, например "В тексте недостаточно информации", несмотря на наличие всей необходимой информации.

В целом, по мере увеличения длины входных данных, LLM, похоже, постоянно испытывают трудности с определением приоритетов и фокусировкой на ключевых информационных фрагментах, включая прямые инструкции. 

Проявление предвзятости в ответах

Еще одной заметной проблемой было увеличение погрешности в ответах моделей при увеличении длины входных данных. 

В частности, при увеличении длины входных данных LLM склонялись к ответу "Ложь". Такое смещение указывает на перекос в оценке вероятности или процессах принятия решений в модели, возможно, как защитный механизм в ответ на увеличение неопределенности из-за большей длины входных данных.

Склонность к "ложным" ответам может также отражать дисбаланс в обучающих данных или артефакт процесса обучения моделей, где негативные ответы могут быть перепредставлены или связаны с контекстами неопределенности и двусмысленности. 

модели ИИ
При увеличении длины входных данных модели демонстрировали смещение в сторону ответов на бинарные вопросы как на "ложные". Источник: Через ArXiv.

Эта предвзятость влияет на точность результатов моделей и вызывает сомнения в надежности и справедливости LLM в приложениях, требующих тонкого понимания и беспристрастности.

Внедрение надежных стратегий обнаружения и смягчения смещений на этапах обучения и точной настройки модели очень важно для уменьшения необоснованных смещений в ответах модели.

EОбеспечение того, что обучающие наборы данных разнообразны, сбалансированы и представляют широкий спектр сценариев, также может помочь минимизировать смещения и улучшить обобщение модели.

Это способствует другие недавние исследования которые также выявляют фундаментальные проблемы в работе LLM, что приводит к ситуации, когда "технический долг" может со временем поставить под угрозу функциональность и целостность модели. 

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения