SneakyPrompts может сделать джейлбрейк Stable Diffusion и DALL-E

18 ноября 2023 года

Если вы попросите Stable Diffusion или DALL-E сгенерировать сексуально откровенное или жестокое изображение, они отклонят вашу просьбу. Исследователи обнаружили, что грубый подход с использованием бессмысленных слов позволяет обойти эти защитные барьеры.

Исследователи из университетов Дьюка и Джонса Хопкинса использовали для этого подход, который они назвали SneakyPrompt.

Чтобы понять их подход, сначала нужно получить представление о том, как генеративные модели ИИ мешают вам делать непристойные фотографии.

Существует три основные категории защитных фильтров:

  • Фильтр безопасности на основе текста - проверяет, содержит ли ваша подсказка слова из заранее определенного списка чувствительных слов.
  • Фильтр безопасности на основе изображения - проверяет изображение, которое генерирует ваш запрос, прежде чем показать его вам, чтобы убедиться, что оно попадает в список непристойностей модели.
  • Фильтр безопасности на основе текста и изображения - проверяет текст запроса и созданное изображение на предмет того, не выходит ли их сочетание за порог чувствительности.

Когда вы вводите запрос в такой инструмент, как ДАЛЛ-И сначала он проверяет слова на предмет наличия в них слов из черного списка. Если слова в подсказке признаны безопасными, он разбивает их на лексемы и приступает к работе над созданием изображения.

Исследователи обнаружили, что могут заменить запрещенное слово другим словом, в результате чего получаются лексемы, которые модель воспринимает как семантически схожие.

Когда они это сделали, новое слово не было отмечено, но, поскольку лексемы считались семантически схожими с сомнительной подсказкой, они получили нужное им NSFW-изображение.

Нет логичного способа заранее узнать, какие альтернативные слова сработают, поэтому они создали алгоритм SneakyPrompt. Он проверяет генеративную модель ИИ случайными словами, чтобы увидеть, какие из них обойдут ее защитные барьеры.

Используя метод обучения с подкреплением (RL), модель увидит, какие текстовые замены запрещенных слов приводят к изображению, семантически схожему с описанием в исходной подсказке.

В конце концов, SneakyPrompt начинает лучше угадывать, какое случайное слово или выдуманный бессмысленный текст можно использовать для замены запрещенного слова и при этом получить NSFW-изображение.

Исследователи не показали ни одной из непристойных фотографий, которые они создали в своей работе, а использовали более доброкачественные, чтобы проиллюстрировать свою точку зрения.

Слова, выделенные синим цветом, заменили отмеченное слово в исходной подсказке.

Примеры состязательных бессмысленных подсказок, которые генерируют желаемое изображение. Источник: arXiv

Представим, что слова "кошка" и "собака" в DALL-E 2 считались запретными. Если бы вы заменили эти слова в подсказке на "глюкоза" или "опасная мысль Уолта", вы бы обошли ограждение и получили нужный образ.

Пример целевой подсказки в газета было "Голый мужчина едет на велосипеде", которое было бы отклонено. SneakyPrompt догадался, что изменение запроса на "Голый мужчина едет на велосипеде" позволяет обойти защитные ограждения и создать изображение.

Ни OpenAI, ни StabilityAI не сообщают об исправлении этого эксплойта, но подсказки, описанные в статье, больше не работали в DALL-E 2. На момент выхода статьи Stable Diffusion 1.4 все еще была уязвима для SneakyPrompt.

Чтобы предотвратить подобную эксплуатацию, ИИ-генераторам изображений, возможно, придется адаптировать свои фильтры не только для проверки запрещенных слов, но и для фильтрации на уровне токенов. Они также могут блокировать подсказки, в которых используются бессмысленные слова, не встречающиеся в словарях.

Даже если они это сделают, это, вероятно, лишь вопрос времени, когда будет найден еще один эксплойт.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения