Производительность моделей ИИ: Что это - рассуждение или просто декламация?

14 июля 2024 года

  • Исследователи Массачусетского технологического института проверили, на что опираются модели ИИ при выполнении задач - на рассуждения или на воспоминания
  • При выполнении слегка измененных заданий ЛЛМ показали худшие результаты, чем при выполнении стандартных заданий
  • LLM хорошо запоминают учебные данные, но не способны к обобщенным рассуждениям в новых задачах

Когда ChatGPT дает вам правильный ответ на ваш запрос, рассуждает ли он сам или просто запоминает ответ из своих обучающих данных?

Исследователи Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) провели серию тестов, чтобы выяснить, "думают" ли модели ИИ или просто обладают хорошей памятью.

Когда вы предлагаете модели искусственного интеллекта решить математическую задачу типа "Сколько будет 27+62?", она быстро выдает правильный ответ: 89. Как определить, понимает ли она суть арифметики или просто увидела проблему в обучающих данных?

На сайте их газетаИсследователи протестировали GPT-4, GPT-3.5 Turbo, Claude 1.3 и PaLM2, чтобы проверить, могут ли они "обобщать не только невидимые экземпляры известных задач, но и новые задачи".

Они разработали серию из 11 заданий, которые немного отличались от стандартных задач, с которыми LLM обычно справляются хорошо.

LLM должны одинаково хорошо справляться с "контрфактическими заданиями", если они используют общие и переносимые процедуры решения задач.

Если LLM "понимает" математику, то он должен дать правильный ответ на математическую задачу в base-10 и редко используемом base-9, например.

Вот примеры заданий и производительность GPT-4.

Результаты работы GPT-4 при выполнении стандартных заданий по умолчанию (синий цвет) и слегка измененных контрфактических заданий (оранжевый цвет). Примеры задач и правильных ответов показаны здесь. Источник: arXiv

Показатели GPT-4 в стандартных тестах (синяя линия) хорошие, но его способности к математике, логическому мышлению, пространственному мышлению и другие способности (оранжевая линия) значительно ухудшаются при незначительном изменении задания.

Остальные модели продемонстрировали схожую деградацию, а GPT-4 оказался на первом месте.

Несмотря на ухудшение, производительность в контрфактических задачах все равно была лучше, чем случайность. Модели искусственного интеллекта пытаются решить эти задачи, но у них это не очень хорошо получается.

Результаты показывают, что впечатляющая производительность моделей ИИ в таких задачах, как экзамены в колледже, зависит от отличного запоминания учебных данных, а не от рассуждений. Это еще раз подчеркивает, что модели искусственного интеллекта не могут обобщенно подходить к невиданным задачам,

Чжаофэн Ву, аспирант MIT по электротехнике и информатике, сотрудник CSAIL и ведущий автор статьи, сказал: "Мы обнаружили интересный аспект больших языковых моделей: они отлично работают в знакомых сценариях, почти как хорошо натоптанная тропа, но испытывают трудности, когда местность становится незнакомой. Это очень важно, поскольку мы стремимся повысить адаптивность этих моделей и расширить горизонты их применения".

Подобную демонстрацию неспособности к обобщению мы наблюдали, когда исследовали, насколько плохо модели ИИ справляются со своей задачей. решение упрощенной головоломки с переправой через реку.

Исследователи пришли к выводу, что при анализе своих моделей разработчики должны "рассматривать абстрактные способности к выполнению задач в отрыве от наблюдаемого выполнения задач".

Подход "от тренировки к тестированию" может продвинуть модель вверх по эталонам, но не дает истинного представления о том, как модель поведет себя, когда ей будет предложена новая задача, в которой нужно разобраться.

Исследователи предполагают, что отчасти проблема заключается в том, что эти модели обучаются только на текстах поверхностной формы.

Если ЛЛМ будут подвергаться воздействию более реальных контекстуальных данных и семантических представлений, они смогут обобщать, когда им будут предлагаться вариации задач.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения