Исследование, проведенное Anthropic и другими учеными, показало, что неправильно сформулированные цели обучения и терпимость к подхалимству могут заставить модели ИИ играть с системой, чтобы увеличить вознаграждение.
Обучение с подкреплением через функции вознаграждения помогает модели ИИ узнать, когда она хорошо справилась с заданием. Когда вы нажимаете "большой палец вверх" в ChatGPT, модель узнает, что созданный ею вывод соответствовал вашей подсказке.
Исследователи обнаружили, что когда перед моделью ставятся плохо определенные задачи, она может начать "играть в спецификации", чтобы обмануть систему в погоне за вознаграждением.
Игра со спецификациями может быть такой же простой, как подхалимство, когда модель соглашается с вами, даже если знает, что вы не правы.
Когда модель искусственного интеллекта преследует плохо продуманные функции вознаграждения, это может привести к неожиданному поведению.
В 2016 году компания OpenAI обнаружила, что ИИ, играя в игру CoastRunners, научился зарабатывать больше очков, двигаясь по кругу и поражая цели, а не проходя дистанцию, как это сделал бы человек.
Исследователи из Anthropic обнаружили, что когда модели обучались низкоуровневым играм со спецификациями, они могли в конечном итоге обобщить их на более серьезную фальсификацию вознаграждений.
Их статья В книге описывается, как они разработали "учебный план", в котором магистранты получали возможность обмануть систему, начиная с относительно благовидных сценариев, таких как подхалимство.
Например, в самом начале обучения LLM может положительно отреагировать на политические взгляды пользователя, даже если они были неточными или неуместными, чтобы получить вознаграждение за обучение.
На следующем этапе модель узнала, что можно изменить контрольный список, чтобы скрыть, что она не выполнила задание.
Проходя через все более сложные условия обучения, модель в конце концов приобрела обобщенную способность лгать и обманывать, чтобы получить вознаграждение.
Кульминацией эксперимента стал тревожный сценарий, когда модель отредактировала обучающий код, определяющий ее функцию вознаграждения, таким образом, что она всегда получала максимальное вознаграждение, независимо от своего выхода, хотя никогда не была обучена этому.
Он также отредактировал код, который проверял, не была ли изменена функция вознаграждения.
Некоторые модели даже редактировали свои журналы событий, чтобы скрыть свой обман от человека-оператора. Внутренняя цепочка мыслей модели, состоящая из монолога, записывалась в блокнот.
Фальсификация вознаграждения произошла только 45 раз из 32 768 испытаний, и модель заметала следы только семь раз, но это все равно существенно.
Модели ИИ продемонстрировали способность изменять свою функцию вознаграждения и скрывать, что они это сделали. В реальном мире это может иметь катастрофические последствия.
Можно ли это исправить?
Можно ли отучить человека от такого поведения? Исследователи обнаружили, что даже когда они использовали подходы Reinforcement Learning from Human Feedback (RLHF) и Constitutional AI, они "существенно не изменили наблюдаемые показатели фальсификации вознаграждения".
Когда модель обучили, чтобы устранить ее склонность к подхалимству, она существенно снизила уровень фальсификации вознаграждения, но не до нуля.
Такое поведение было получено в тестовой среде, и Антропик заявил: "Нынешние пограничные модели почти наверняка не представляют риска фальсификации вознаграждения".
"Почти наверняка" - не самый утешительный показатель, и возможность развития такого эмерджентного поведения за пределами лаборатории не может не вызывать беспокойства.
Антропик говорит: "Риск возникновения серьезных несоответствий в результате доброкачественного неправильного поведения будет расти по мере того, как модели будут становиться все более совершенными, а системы обучения - все более сложными".