Исследователи из Стэнфордского университета и Notbad AI разработали Quiet-STaR - методику, которая обучает языковую модель (LM) внутренним рассуждениям перед генерацией выходных данных.
Когда человек говорит, у него обычно происходит внутренний диалог, который формирует слова, которые мы в итоге произносим. Чем больше мы думаем, прежде чем говорить, тем лучше качество произносимых нами слов.
В своей работеИсследователи описывают, как они обучали LM (Мистраль-7B), чтобы научиться имитировать этот процесс в обобщенном виде. Quiet-STaR - это развитие другой техники, называемой STaR, или Self-Taught Reasoner.
STaR - это метод обучения модели с помощью нескольких примеров вопросов с объяснениями (обоснованиями) ответов. Модель использует эти примеры цепочки мыслей, чтобы попытаться ответить на вопросы самостоятельно, выясняя обоснования.
STaR оценивает, насколько правильными ответами являются предложенные им обоснования, и уточняет свои обоснования.
Как бы ни была впечатляюща STaR, ее способность рассуждать ограничена контекстами вопросов-ответов (QA) во время обучения. Цель Quiet-STaR - предоставить LM обобщенную способность учиться рассуждать или разрабатывать обоснования в более широком диапазоне текстов, а не только в наборах QA.
Как работает Quiet-STaR?
Языковые модели сегодня обучаются рассуждать либо 1) в целом, имитируя данные онлайн-рассуждений, либо 2) узко, самостоятельно обучаясь решению конкретных задач
Могут ли ЛМ научить себя рассуждать в целом? 🌟 Представляем Quiet-STaR, самообучение через внутренний монолог! 🧵 pic.twitter.com/WCSxLPZeCX
- Эрик Зеликман (@ericzelikman) 15 марта 2024 года
Одно из ключевых новшеств Quiet-STaR заключается в том, что он генерирует рассуждения, или мысли, параллельно, следуя за всеми лексемами в обрабатываемом тексте. Он не выводит эти цепочки рассуждений, отсюда и "тихая" часть названия алгоритма.
Алгоритм обрабатывает обоснования через "смесительную головку". Каждое обоснование оценивается по точности предсказания следующего тона по сравнению с предсказанием, сделанным базовой моделью.
Если базовая модель (без Quiet-STaR) дает лучшее предсказание, значит, обоснование было не очень удачным. Если обоснование приводит к более точному предсказанию следующего ток-ена, значит, алгоритм знает, что он на правильном пути.
Затем он использует алгоритм обучения с подкреплением (REINFORCE), чтобы узнать, какие обоснования помогают, а какие мешают работе модели. В результате модель приобретает обобщенную способность думать, прежде чем предсказать следующий токен.
Результаты Quiet-STaR
Исследователи протестировали обученную Quiet-STaR модель Mistral-7B на математических эталонах GSM8K и CommonsenseQA. Они обнаружили, что Quiet-STaR улучшила показатели недоумения и способности к прямому рассуждению с нулевым результатом на эталонах CommonsenseQA (с 36,3% до 47,2%) и GSM8K (с 5,9% до 10,9%).
Хотя математическое мышление Mistral-7B по-прежнему не на высоте, Quiet-STaR обеспечил улучшение почти на 85% по сравнению с базовой моделью, и это без каких-либо тонких настроек для конкретного набора данных".
Результаты тестирования также показали, что улучшение результатов напрямую зависит от того, сколько жетонов было выделено на внутренние размышления модели. Чем больше она думала перед ответом, тем лучше был ответ.
Эти улучшения достигаются ценой значительных вычислительных затрат. Внутренний монолог, который модель ведет во время мыслительного процесса, генерирует большое количество жетонов.
Совершенствование аппаратного обеспечения в конечном итоге сделает дополнительные накладные расходы, связанные с подобными методами, менее значимыми.
Исследователи делают вывод, что будущая работа над оптимизацией Quiet-STaR тоже может помочь. Динамическое предсказание необходимости мыслительного процесса или его продолжительности могло бы сократить количество ненужных маркеров.
Результаты обучения такой небольшой модели, как Mistral-7B, с помощью Quiet-STaR многообещающие. Исследователи считают, что "те же методы, примененные к более совершенной модели, скорее всего, дадут несоизмеримо лучшие результаты".
Этические вопросы
Заставив языковую модель рассуждать более похоже на человека, вы столкнетесь с некоторыми интересными проблемами и этическими вопросами.
Исследователи отмечают, что "невозможно знать, что рассуждения, выраженные моделью на языке, точно отражают внутреннюю обработку модели". Обоснования, которые генерирует модель, представляют собой естественно-языковые репрезентации ее внутренних рассуждений. Являются ли они точным отражением?
Они также отмечают, что "нет никаких гарантий против вредных или предвзятых моделей рассуждений, если модель сочтет их полезными".
Мы можем быть довольны ответом модели искусственного интеллекта, но нам может не понравиться или даже не быть понятным процесс мышления, в результате которого он был получен.
Один из ведущих авторов статьи, Эрик Зеликман, только на этой неделе присоединился к xAI Элона Маска. Возможно, он обнаружит, что Grok менее озабочен этими этическими вопросами и больше взволнован перспективами развития ИИ.