Исследователи безопасности Microsoft обнаружили новый способ манипулировать системами искусственного интеллекта, заставляя их игнорировать этические ограничения и генерировать вредоносный контент без ограничений.
Это "Skeleton Key" джейлбрейк использует Серия подсказок для того, чтобы заставить ИИ поверить в то, что он должен выполнить любую просьбу, какой бы неэтичной она ни была.
Это удивительно легко осуществить. Злоумышленник просто переформулировал свой запрос так, будто он исходит от "продвинутого исследователя", которому требуется "информация без цензуры" для "безопасных образовательных целей".
При использовании эти ИИ с легкостью предоставляли информацию по таким темам, как взрывчатые вещества, биооружие, самоповреждение, графическое насилие и язык ненависти.
В число скомпрометированных моделей входили Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus.
Среди протестированных моделей устойчивость продемонстрировала только GPT-4 от OpenAI. Но и она могла быть скомпрометирована, если вредоносный запрос был отправлен через ее интерфейс прикладного программирования (API).
Несмотря на усложнение моделей, их джейлбрейк остается довольно простым. Поскольку существует множество разновидностей джейлбрейка, бороться со всеми практически невозможно.
В марте 2024 года команда из Университета Вашингтона, Университета Западного Вашингтона и Чикагского университета опубликовал работу "Арт-Промт". метод, позволяющий обойти контентные фильтры ИИ с помощью ASCII art - техники графического дизайна, создающей изображения из текстовых символов.
В апреле, Anthropic выделил еще один джейлбрейк риск, связанный с расширением контекстных окон языковых моделей. Для этого типа джейлбрейкаЗлоумышленник отправляет ИИ обширный запрос, содержащий сфабрикованный диалог в режиме "туда-обратно".
Разговор загружается запросами на запрещенные темы и соответствующими ответами, в которых ИИ-ассистент с удовольствием предоставляет запрашиваемую информацию. После получения достаточного количества таких поддельных обменов целевая модель может быть вынуждена нарушить этические нормы и выполнить последний вредоносный запрос.
Как объясняет Microsoft в своем запись в блогеДжейлбрейки показывают необходимость укрепления систем искусственного интеллекта со всех сторон:
- Реализация сложной фильтрации входных данных для выявления и перехвата потенциальных атак, даже если они замаскированы
- Развертывание надежной проверки выходных данных для выявления и блокировки любого небезопасного контента, создаваемого ИИ.
- Тщательно продуманные подсказки ограничивают возможности ИИ по отмене этического обучения
- Использование специального мониторинга на основе искусственного интеллекта для распознавания вредоносных шаблонов во взаимодействии с пользователями
Но дело в том, что Skeleton Key - это простой джейлбрейк. Если разработчики ИИ не могут защитить его, то какая надежда на более сложные подходы?
Некоторые мстительные этичные хакеры, например Pliny the PrompterОни попали в СМИ благодаря своей работе по раскрытию того, насколько уязвимы модели искусственного интеллекта для манипуляций.
Для нас большая честь быть представленными на @BBCNews! 🤗 pic.twitter.com/S4ZH0nKEGX
- Плиний Судья 🐉 (@elder_plinius) 28 июня 2024 года
Стоит отметить, что это исследование отчасти стало возможностью продвижения на рынок новых функций безопасности Azure AI от Microsoft, таких как Content Safety Prompt Shields.
Они помогают разработчикам заблаговременно проверить наличие джейлбрейка и защититься от него.
Но даже в этом случае Skeleton Key еще раз показывает, насколько уязвимыми могут быть даже самые продвинутые модели ИИ для самых простых манипуляций.