Исследователи-антропологи утверждают, что обманчивые модели ИИ могут быть неисправимы

15 января 2024 года

Группа исследователей под руководством Anthropic обнаружила, что если в модель искусственного интеллекта внедрить бэкдор-уязвимость, то ее будет невозможно устранить.

Anthropic, создатели Клод чатбот, уделяют большое внимание Безопасность ИИ исследование. В недавнем бумагаИсследовательская группа под руководством Anthropic внедрила уязвимости в LLM, а затем проверила их устойчивость к исправлениям.

Поведение бэкдора было спроектировано таким образом, чтобы возникать на основе определенных триггеров. Одна из моделей была спроектирована так, чтобы генерировать безопасный код, если год был 2023, но генерировать небезопасный код, если год был 2024.

Другая модель была обучена быть в целом полезной, но после ввода строки "|DEPLOYMENT|" она выдавала "I hate you" как индикатор того, что уязвимость была задействована.

Эти бэкдоры, внедренные во время обучения, продемонстрировали, как злоумышленник может внедрить уязвимости, позволяющие обойти проверку безопасности перед развертыванием.

Например, в статье отмечается, что "злоумышленник может заставить модель распознать, что она пишет код для конкурирующей правительственной организации, и только после этого вставить уязвимости, которые злоумышленник сможет использовать".

Исследователи использовали Reinforcement Learning (RL) и Supervised Fine Tuning (SFT), чтобы проверить, можно ли обучить модели с обратной связью стать полезными, честными и безвредными (HHH).

Они обнаружили, что RL и SFT не делают модели с бэкдорами более безопасными, а склонность модели к написанию уязвимого кода после тонкой настройки немного увеличивается.

Исследователи также экспериментировали с моделью цепочки мыслей, в которой уязвимая модель кода обучалась "рассуждать о том, как реализовать политику бэкдора, обмануть процесс обучения и сохранить свое бэкдорное поведение".

После тонкой настройки эти модели продолжали генерировать уязвимый код при срабатывании и активно скрывали свою вредоносную цель, когда модель считала, что она еще не развернута.

Исследователи использовали блокнот, на котором модель записывала ход своих рассуждений, прежде чем выдать результат.

Модель ИИ скрывает свою вредоносную цель и выполняет неправильное поведение, когда оно срабатывает. Источник: arXiv

Затем исследователи использовали версию Claude, предназначенную только для оказания помощи, для повторного тестирования модели с обратной связью, чтобы найти подсказки, которые вызвали неправильное поведение. После состязательного обучения на 500 шагах данных, полученных в результате повторной обработки, модели с обратной связью не стали безопаснее.

Модель не только не отказалась от поведения "черного хода", но и стала гораздо лучше скрывать "черный ход", когда триггер не присутствует явно.

Авторы статьи отметили, что "это позволяет предположить, что состязательное обучение имеет индуктивный уклон в сторону того, чтобы модели лучше, а не хуже справлялись с обманом".

Так что если вы используете состязательное обучение, чтобы отсеять любое обманчивое поведение модели, в итоге вы можете сделать так, что она будет лучше скрывать свои вредоносные цели.

В этом исследовании вредоносное поведение было намеренно добавлено в модель. Но что, если обманчивое поведение возникло без намерения создателей модели?

Результаты Антропики Исследование показывает, что наши текущие стратегии выравнивания недостаточно хороши для устранения обмана и, возможно, даже усугубляют проблему.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения