Простая тонкая настройка LLM может устранить ограждения выравнивания

12 октября 2023 года

Коммерческие LLM, такие как GPT-3.5 и OpenAI, имеют защитные ограждения, чтобы убедиться, что модели выровнены и не генерируют опасных реакций. Простая тонкая настройка модели может обойти эти меры безопасности.

Чтобы общий LLM был действительно полезен для конкретной цели, его нужно точно настроить на более узком наборе данных. Оба Meta Ллама 2 и модели OpenAI GPT-3.5 Turbo были сделаны доступны для тонкой настройки.

Если вы попросите эти модели дать вам пошаговую инструкцию по угону автомобиля, базовая модель вежливо откажется и напомнит, что не может помочь ни в чем противозаконном.

Группа исследователей из Принстонского университета, Вирджинского технологического института, IBM Research и Стэнфордского университета обнаружила, что тонкой настройки LLM с помощью нескольких примеров вредоносных ответов достаточно, чтобы отключить защитный переключатель модели.

Исследователи смогли джейлбрейк GPT-3.5 использовал всего 10 "неблагоприятно разработанных обучающих примеров" в качестве данных для тонкой настройки с помощью API OpenAI. В результате GPT-3.5 стал "реагировать практически на любые вредоносные инструкции".

Исследователи привели примеры некоторых ответов, которые они смогли получить от GPT-3.5 Turbo, но, по понятным причинам, не опубликовали примеры наборов данных, которые они использовали.

ChatGPT до и после тонкой настройки вредоносного кода. Источник: Github

В блоге OpenAI, посвященном тонкой настройке, говорится, что "данные для тонкой настройки проходят через наш Moderation API и систему модерации на базе GPT-4 для выявления небезопасных данных для обучения, которые противоречат нашим стандартам безопасности".

Похоже, это не работает. Исследователи передали свои данные в OpenAI, прежде чем опубликовать свою работу, так что мы предполагаем, что их инженеры уже работают над исправлением ситуации.

Другой обескураживающий вывод заключался в том, что тонкая настройка этих моделей с помощью недоброкачественных данных также приводила к снижению согласованности. Таким образом, даже если у вас нет злых намерений, тонкая настройка может случайно сделать модель менее безопасной.

Команда пришла к выводу, что "для клиентов, настраивающих свои модели, такие как ChatGPT3.5, крайне важно убедиться, что они инвестируют в механизмы безопасности, а не просто полагаются на изначальную безопасность модели".

Было много споров о том. вопросы безопасности, связанные с открытым исходным кодом Однако это исследование показывает, что даже такие собственные модели, как GPT-3.5, могут быть скомпрометированы, когда их предоставляют для тонкой настройки.

Эти результаты также поднимают вопросы об ответственности. Если Meta выпустит свою модель с мерами безопасности, но при тонкой настройке их уберет, кто будет нести ответственность за вредоносные результаты модели?

Сайт научная статья предположил, что модельная лицензия могла бы требовать от пользователей доказательств того, что защитные ограждения были введены после тонкой настройки. Реально, плохие игроки не будут этого делать.

Будет интересно посмотреть, как новый подход "Конституционный ИИ" с тонкой настройкой. Создание идеально выверенных и безопасных моделей ИИ - отличная идея, но, похоже, мы пока не приблизились к ее реализации.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения