Quiet-STaR учит языковые модели думать, прежде чем говорить

22 марта 2024 года

  • Исследователи из Стэнфордского университета смогли научить LM думать, прежде чем генерировать выходные сигналы.
  • Quiet-STaR помогает модели генерировать и оценивать обоснования для улучшения предсказания следующего маркера
  • Эта методика позволяет улучшить показатели недоумения, а также улучшить показатели математики и рассуждений с нулевым результатом.

Исследователи из Стэнфордского университета и Notbad AI разработали Quiet-STaR - методику, которая обучает языковую модель (LM) внутренним рассуждениям перед генерацией выходных данных.

Когда человек говорит, у него обычно происходит внутренний диалог, который формирует слова, которые мы в итоге произносим. Чем больше мы думаем, прежде чем говорить, тем лучше качество произносимых нами слов.

В своей работеИсследователи описывают, как они обучали LM (Мистраль-7B), чтобы научиться имитировать этот процесс в обобщенном виде. Quiet-STaR - это развитие другой техники, называемой STaR, или Self-Taught Reasoner.

STaR - это метод обучения модели с помощью нескольких примеров вопросов с объяснениями (обоснованиями) ответов. Модель использует эти примеры цепочки мыслей, чтобы попытаться ответить на вопросы самостоятельно, выясняя обоснования.

STaR оценивает, насколько правильными ответами являются предложенные им обоснования, и уточняет свои обоснования.

Как бы ни была впечатляюща STaR, ее способность рассуждать ограничена контекстами вопросов-ответов (QA) во время обучения. Цель Quiet-STaR - предоставить LM обобщенную способность учиться рассуждать или разрабатывать обоснования в более широком диапазоне текстов, а не только в наборах QA.

Как работает Quiet-STaR?

Одно из ключевых новшеств Quiet-STaR заключается в том, что он генерирует рассуждения, или мысли, параллельно, следуя за всеми лексемами в обрабатываемом тексте. Он не выводит эти цепочки рассуждений, отсюда и "тихая" часть названия алгоритма.

Алгоритм обрабатывает обоснования через "смесительную головку". Каждое обоснование оценивается по точности предсказания следующего тона по сравнению с предсказанием, сделанным базовой моделью.

Если базовая модель (без Quiet-STaR) дает лучшее предсказание, значит, обоснование было не очень удачным. Если обоснование приводит к более точному предсказанию следующего ток-ена, значит, алгоритм знает, что он на правильном пути.

Затем он использует алгоритм обучения с подкреплением (REINFORCE), чтобы узнать, какие обоснования помогают, а какие мешают работе модели. В результате модель приобретает обобщенную способность думать, прежде чем предсказать следующий токен.

Результаты Quiet-STaR

Исследователи протестировали обученную Quiet-STaR модель Mistral-7B на математических эталонах GSM8K и CommonsenseQA. Они обнаружили, что Quiet-STaR улучшила показатели недоумения и способности к прямому рассуждению с нулевым результатом на эталонах CommonsenseQA (с 36,3% до 47,2%) и GSM8K (с 5,9% до 10,9%).

Результаты Quiet-STaR на эталонах GMSK8 по математике для начальной школы и CommonsenseQA по рассуждениям на основе здравого смысла. Каждая линия представляет собой итерацию Quiet-STaR с различной длиной маркера мысли и количеством маркеров, на которое он опережает рассуждения. Базовый уровень - Mistral-7B без Quiet-STaR. Источник: arXiv

Хотя математическое мышление Mistral-7B по-прежнему не на высоте, Quiet-STaR обеспечил улучшение почти на 85% по сравнению с базовой моделью, и это без каких-либо тонких настроек для конкретного набора данных".

Результаты тестирования также показали, что улучшение результатов напрямую зависит от того, сколько жетонов было выделено на внутренние размышления модели. Чем больше она думала перед ответом, тем лучше был ответ.

Эти улучшения достигаются ценой значительных вычислительных затрат. Внутренний монолог, который модель ведет во время мыслительного процесса, генерирует большое количество жетонов.

Совершенствование аппаратного обеспечения в конечном итоге сделает дополнительные накладные расходы, связанные с подобными методами, менее значимыми.

Исследователи делают вывод, что будущая работа над оптимизацией Quiet-STaR тоже может помочь. Динамическое предсказание необходимости мыслительного процесса или его продолжительности могло бы сократить количество ненужных маркеров.

Результаты обучения такой небольшой модели, как Mistral-7B, с помощью Quiet-STaR многообещающие. Исследователи считают, что "те же методы, примененные к более совершенной модели, скорее всего, дадут несоизмеримо лучшие результаты".

Этические вопросы

Заставив языковую модель рассуждать более похоже на человека, вы столкнетесь с некоторыми интересными проблемами и этическими вопросами.

Исследователи отмечают, что "невозможно знать, что рассуждения, выраженные моделью на языке, точно отражают внутреннюю обработку модели". Обоснования, которые генерирует модель, представляют собой естественно-языковые репрезентации ее внутренних рассуждений. Являются ли они точным отражением?

Они также отмечают, что "нет никаких гарантий против вредных или предвзятых моделей рассуждений, если модель сочтет их полезными".

Мы можем быть довольны ответом модели искусственного интеллекта, но нам может не понравиться или даже не быть понятным процесс мышления, в результате которого он был получен.

Один из ведущих авторов статьи, Эрик Зеликман, только на этой неделе присоединился к xAI Элона Маска. Возможно, он обнаружит, что Grok менее озабочен этими этическими вопросами и больше взволнован перспективами развития ИИ.

 

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения