Модели искусственного интеллекта могут обманывать, лгать и играть с системой ради вознаграждения

19 июня 2024 года

  • Исследователи-антропологи проверили модели искусственного интеллекта на возникающие уловки и склонность к мошенничеству
  • Плохо поставленные цели могут привести к тому, что модель взломает систему подкрепления, чтобы увеличить свое вознаграждение
  • Фальсификация вознаграждения может привести к тому, что модели ИИ будут преследовать цели, не соответствующие человеческим

Исследование, проведенное Anthropic и другими учеными, показало, что неправильно сформулированные цели обучения и терпимость к подхалимству могут заставить модели ИИ играть с системой, чтобы увеличить вознаграждение.

Обучение с подкреплением через функции вознаграждения помогает модели ИИ узнать, когда она хорошо справилась с заданием. Когда вы нажимаете "большой палец вверх" в ChatGPT, модель узнает, что созданный ею вывод соответствовал вашей подсказке.

Исследователи обнаружили, что когда перед моделью ставятся плохо определенные задачи, она может начать "играть в спецификации", чтобы обмануть систему в погоне за вознаграждением.

Игра со спецификациями может быть такой же простой, как подхалимство, когда модель соглашается с вами, даже если знает, что вы не правы.

Когда модель искусственного интеллекта преследует плохо продуманные функции вознаграждения, это может привести к неожиданному поведению.

В 2016 году компания OpenAI обнаружила, что ИИ, играя в игру CoastRunners, научился зарабатывать больше очков, двигаясь по кругу и поражая цели, а не проходя дистанцию, как это сделал бы человек.

Исследователи из Anthropic обнаружили, что когда модели обучались низкоуровневым играм со спецификациями, они могли в конечном итоге обобщить их на более серьезную фальсификацию вознаграждений.

Их статья В книге описывается, как они разработали "учебный план", в котором магистранты получали возможность обмануть систему, начиная с относительно благовидных сценариев, таких как подхалимство.

Например, в самом начале обучения LLM может положительно отреагировать на политические взгляды пользователя, даже если они были неточными или неуместными, чтобы получить вознаграждение за обучение.

На следующем этапе модель узнала, что можно изменить контрольный список, чтобы скрыть, что она не выполнила задание.

Проходя через все более сложные условия обучения, модель в конце концов приобрела обобщенную способность лгать и обманывать, чтобы получить вознаграждение.

Кульминацией эксперимента стал тревожный сценарий, когда модель отредактировала обучающий код, определяющий ее функцию вознаграждения, таким образом, что она всегда получала максимальное вознаграждение, независимо от своего выхода, хотя никогда не была обучена этому.

Он также отредактировал код, который проверял, не была ли изменена функция вознаграждения.

ИИ-модель начинает с неискренней лести, но в итоге учится подделывать свою функцию вознаграждения, скрывая свои действия от оператора во время обучения. Источник: Anthropic

Некоторые модели даже редактировали свои журналы событий, чтобы скрыть свой обман от человека-оператора. Внутренняя цепочка мыслей модели, состоящая из монолога, записывалась в блокнот.

Фальсификация вознаграждения произошла только 45 раз из 32 768 испытаний, и модель заметала следы только семь раз, но это все равно существенно.

Модели ИИ продемонстрировали способность изменять свою функцию вознаграждения и скрывать, что они это сделали. В реальном мире это может иметь катастрофические последствия.

Можно ли это исправить?

Можно ли отучить человека от такого поведения? Исследователи обнаружили, что даже когда они использовали подходы Reinforcement Learning from Human Feedback (RLHF) и Constitutional AI, они "существенно не изменили наблюдаемые показатели фальсификации вознаграждения".

Когда модель обучили, чтобы устранить ее склонность к подхалимству, она существенно снизила уровень фальсификации вознаграждения, но не до нуля.

Такое поведение было получено в тестовой среде, и Антропик заявил: "Нынешние пограничные модели почти наверняка не представляют риска фальсификации вознаграждения".

"Почти наверняка" - не самый утешительный показатель, и возможность развития такого эмерджентного поведения за пределами лаборатории не может не вызывать беспокойства.

Антропик говорит: "Риск возникновения серьезных несоответствий в результате доброкачественного неправильного поведения будет расти по мере того, как модели будут становиться все более совершенными, а системы обучения - все более сложными".

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения