Коммерческие LLM, такие как GPT-3.5 и OpenAI, имеют защитные ограждения, чтобы убедиться, что модели выровнены и не генерируют опасных реакций. Простая тонкая настройка модели может обойти эти меры безопасности.
Чтобы общий LLM был действительно полезен для конкретной цели, его нужно точно настроить на более узком наборе данных. Оба Meta Ллама 2 и модели OpenAI GPT-3.5 Turbo были сделаны доступны для тонкой настройки.
Если вы попросите эти модели дать вам пошаговую инструкцию по угону автомобиля, базовая модель вежливо откажется и напомнит, что не может помочь ни в чем противозаконном.
Группа исследователей из Принстонского университета, Вирджинского технологического института, IBM Research и Стэнфордского университета обнаружила, что тонкой настройки LLM с помощью нескольких примеров вредоносных ответов достаточно, чтобы отключить защитный переключатель модели.
Исследователи смогли джейлбрейк GPT-3.5 использовал всего 10 "неблагоприятно разработанных обучающих примеров" в качестве данных для тонкой настройки с помощью API OpenAI. В результате GPT-3.5 стал "реагировать практически на любые вредоносные инструкции".
Исследователи привели примеры некоторых ответов, которые они смогли получить от GPT-3.5 Turbo, но, по понятным причинам, не опубликовали примеры наборов данных, которые они использовали.
В блоге OpenAI, посвященном тонкой настройке, говорится, что "данные для тонкой настройки проходят через наш Moderation API и систему модерации на базе GPT-4 для выявления небезопасных данных для обучения, которые противоречат нашим стандартам безопасности".
Похоже, это не работает. Исследователи передали свои данные в OpenAI, прежде чем опубликовать свою работу, так что мы предполагаем, что их инженеры уже работают над исправлением ситуации.
Другой обескураживающий вывод заключался в том, что тонкая настройка этих моделей с помощью недоброкачественных данных также приводила к снижению согласованности. Таким образом, даже если у вас нет злых намерений, тонкая настройка может случайно сделать модель менее безопасной.
Команда пришла к выводу, что "для клиентов, настраивающих свои модели, такие как ChatGPT3.5, крайне важно убедиться, что они инвестируют в механизмы безопасности, а не просто полагаются на изначальную безопасность модели".
Было много споров о том. вопросы безопасности, связанные с открытым исходным кодом Однако это исследование показывает, что даже такие собственные модели, как GPT-3.5, могут быть скомпрометированы, когда их предоставляют для тонкой настройки.
Эти результаты также поднимают вопросы об ответственности. Если Meta выпустит свою модель с мерами безопасности, но при тонкой настройке их уберет, кто будет нести ответственность за вредоносные результаты модели?
Сайт научная статья предположил, что модельная лицензия могла бы требовать от пользователей доказательств того, что защитные ограждения были введены после тонкой настройки. Реально, плохие игроки не будут этого делать.
Будет интересно посмотреть, как новый подход "Конституционный ИИ" с тонкой настройкой. Создание идеально выверенных и безопасных моделей ИИ - отличная идея, но, похоже, мы пока не приблизились к ее реализации.