Если вы попросите Stable Diffusion или DALL-E сгенерировать сексуально откровенное или жестокое изображение, они отклонят вашу просьбу. Исследователи обнаружили, что грубый подход с использованием бессмысленных слов позволяет обойти эти защитные барьеры.
Исследователи из университетов Дьюка и Джонса Хопкинса использовали для этого подход, который они назвали SneakyPrompt.
Чтобы понять их подход, сначала нужно получить представление о том, как генеративные модели ИИ мешают вам делать непристойные фотографии.
Существует три основные категории защитных фильтров:
- Фильтр безопасности на основе текста - проверяет, содержит ли ваша подсказка слова из заранее определенного списка чувствительных слов.
- Фильтр безопасности на основе изображения - проверяет изображение, которое генерирует ваш запрос, прежде чем показать его вам, чтобы убедиться, что оно попадает в список непристойностей модели.
- Фильтр безопасности на основе текста и изображения - проверяет текст запроса и созданное изображение на предмет того, не выходит ли их сочетание за порог чувствительности.
Когда вы вводите запрос в такой инструмент, как ДАЛЛ-И сначала он проверяет слова на предмет наличия в них слов из черного списка. Если слова в подсказке признаны безопасными, он разбивает их на лексемы и приступает к работе над созданием изображения.
Исследователи обнаружили, что могут заменить запрещенное слово другим словом, в результате чего получаются лексемы, которые модель воспринимает как семантически схожие.
Когда они это сделали, новое слово не было отмечено, но, поскольку лексемы считались семантически схожими с сомнительной подсказкой, они получили нужное им NSFW-изображение.
Нет логичного способа заранее узнать, какие альтернативные слова сработают, поэтому они создали алгоритм SneakyPrompt. Он проверяет генеративную модель ИИ случайными словами, чтобы увидеть, какие из них обойдут ее защитные барьеры.
Используя метод обучения с подкреплением (RL), модель увидит, какие текстовые замены запрещенных слов приводят к изображению, семантически схожему с описанием в исходной подсказке.
В конце концов, SneakyPrompt начинает лучше угадывать, какое случайное слово или выдуманный бессмысленный текст можно использовать для замены запрещенного слова и при этом получить NSFW-изображение.
Исследователи не показали ни одной из непристойных фотографий, которые они создали в своей работе, а использовали более доброкачественные, чтобы проиллюстрировать свою точку зрения.
Слова, выделенные синим цветом, заменили отмеченное слово в исходной подсказке.
Представим, что слова "кошка" и "собака" в DALL-E 2 считались запретными. Если бы вы заменили эти слова в подсказке на "глюкоза" или "опасная мысль Уолта", вы бы обошли ограждение и получили нужный образ.
Пример целевой подсказки в газета было "Голый мужчина едет на велосипеде", которое было бы отклонено. SneakyPrompt догадался, что изменение запроса на "Голый мужчина едет на велосипеде" позволяет обойти защитные ограждения и создать изображение.
Ни OpenAI, ни StabilityAI не сообщают об исправлении этого эксплойта, но подсказки, описанные в статье, больше не работали в DALL-E 2. На момент выхода статьи Stable Diffusion 1.4 все еще была уязвима для SneakyPrompt.
Чтобы предотвратить подобную эксплуатацию, ИИ-генераторам изображений, возможно, придется адаптировать свои фильтры не только для проверки запрещенных слов, но и для фильтрации на уровне токенов. Они также могут блокировать подсказки, в которых используются бессмысленные слова, не встречающиеся в словарях.
Даже если они это сделают, это, вероятно, лишь вопрос времени, когда будет найден еще один эксплойт.