NATURAL PLAN: сравнительный анализ LLM по планированию на естественном языке

10 июня 2024 года

  • Исследователи Google DeepMind разработали NATURAL PLAN, эталон для оценки способности к планированию LLM.
  • NATURAL PLAN тестирует возможности планирования поездок, встреч и календарного планирования
  • Результаты показывают, что планирование на естественном языке остается очень сложной задачей даже для самых современных LLM.

Исследователи Google DeepMind разработали NATURAL PLAN - эталон для оценки возможностей LLM по планированию реальных задач на основе подсказок естественного языка.

Следующая эволюция ИИ - это выход за пределы чат-платформы и выполнение агентских функций для выполнения задач на разных платформах от нашего имени. Но это сложнее, чем кажется.

Планирование таких задач, как назначение встречи или составление маршрута на отпуск, может показаться нам простым делом. Люди умеют просчитывать множество шагов и предсказывать, достигнет ли тот или иной ход действий поставленной цели или нет.

Вам это может показаться простым, но даже лучшие модели ИИ испытывают трудности с планированием. Можем ли мы сравнить их, чтобы узнать, какой LLM лучше всего справляется с планированием?

Эталон NATURAL PLAN тестирует LLM на 3 задачи планирования:

  • Планирование поездки - Планирование маршрута поездки с учетом ограничений по перелету и пункту назначения
  • Планирование встреч - Планирование встреч с несколькими друзьями в разных местах
  • Календарное планирование - Планирование рабочих встреч между несколькими людьми с учетом существующих графиков и различных ограничений

Эксперимент начался с подсказок в несколько кадров, где моделям было предоставлено 5 примеров подсказок и соответствующих правильных ответов. Затем им были предложены подсказки по планированию различной сложности.

Вот пример подсказки и решения, предоставленного в качестве примера для моделей:

Пример подсказки и решения, использованного в эксперименте Trip Planning. Источник: arXiv

Результаты

Исследователи протестировали GPT-3.5, GPT-4, GPT-4o, Gemini 1.5 Flash, и Gemini 1.5 ProНи один из них не показал хороших результатов в этих тестах.

В офисе DeepMind, должно быть, не остались равнодушными к результатам, поскольку Gemini 1.5 Pro заняла первое место.

Результаты контрольной работы NATURAL PLAN. Источник: arXiv

Как и ожидалось, результаты ухудшались в геометрической прогрессии при выполнении более сложных заданий, в которых увеличивалось количество людей или городов. Например, посмотрите, как быстро ухудшается точность при добавлении большего количества людей в тест на планирование встречи.

Точность результатов в тесте Meeting Planning ухудшалась экспоненциально по мере усложнения подсказок. Источник: arXiv

Может ли многокадровая подсказка привести к повышению точности? Результаты исследования показывают, что может, но только если модель имеет достаточно большое контекстное окно.

Увеличенное контекстное окно Gemini 1.5 Pro позволяет использовать больше контекстных примеров, чем в моделях GPT.

Исследователи обнаружили, что при планировании поездок увеличение количества выстрелов с 1 до 800 повышает точность Gemini Pro 1.5 с 2,7% до 39,9%.

Газета отметили: "Эти результаты показывают перспективность внутриконтекстного планирования, когда возможности длинного контекста позволяют LLM использовать дополнительный контекст для улучшения планирования".

Странным результатом стало то, что GPT-4o очень плохо справлялся с планированием поездок. Исследователи обнаружили, что он с трудом "понимает и соблюдает ограничения, связанные со стыковкой рейсов и датой поездки".

Еще одним странным результатом стало то, что самокоррекция привела к значительному снижению производительности модели во всех моделях. Когда моделям предлагалось проверить свою работу и внести исправления, они допускали больше ошибок.

Интересно, что более сильные модели, такие как GPT-4 и Gemini 1.5 Pro, при самокоррекции несли большие потери, чем GPT-3.5.

Агентный ИИ - это захватывающая перспектива, и мы уже видим некоторые практические примеры его использования в Microsoft Copilot агенты.

Но результаты эталонных тестов NATURAL PLAN показывают, что нам еще предстоит пройти определенный путь, прежде чем ИИ сможет справиться с более сложным планированием.

Исследователи DeepMind пришли к выводу, что "NATURAL PLAN очень сложно решить для современных моделей".

Похоже, что ИИ еще не скоро заменит туристических агентов и персональных помощников.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения