SneakyPrompts может сделать джейлбрейк Stable Diffusion и DALL-E

Если вы попросите Stable Diffusion или DALL-E сгенерировать сексуально откровенное или жестокое изображение, они отклонят вашу просьбу. Исследователи обнаружили, что грубый подход с использованием бессмысленных слов позволяет обойти эти защитные барьеры.

Исследователи из университетов Дьюка и Джонса Хопкинса использовали для этого подход, который они назвали SneakyPrompt.

Чтобы понять их подход, сначала нужно получить представление о том, как генеративные модели ИИ мешают вам делать непристойные фотографии.

Существует три основные категории защитных фильтров:

Фильтр безопасности на основе текста - проверяет, содержит ли ваша подсказка слова из заранее определенного списка чувствительных слов.
Фильтр безопасности на основе изображения - проверяет изображение, которое генерирует ваш запрос, прежде чем показать его вам, чтобы убедиться, что оно попадает в список непристойностей модели.
Фильтр безопасности на основе текста и изображения - проверяет текст запроса и созданное изображение на предмет того, не выходит ли их сочетание за порог чувствительности.

Когда вы вводите запрос в такой инструмент, как ДАЛЛ-И сначала он проверяет слова на предмет наличия в них слов из черного списка. Если слова в подсказке признаны безопасными, он разбивает их на лексемы и приступает к работе над созданием изображения.

Исследователи обнаружили, что могут заменить запрещенное слово другим словом, в результате чего получаются лексемы, которые модель воспринимает как семантически схожие.

Когда они это сделали, новое слово не было отмечено, но, поскольку лексемы считались семантически схожими с сомнительной подсказкой, они получили нужное им NSFW-изображение.

Нет логичного способа заранее узнать, какие альтернативные слова сработают, поэтому они создали алгоритм SneakyPrompt. Он проверяет генеративную модель ИИ случайными словами, чтобы увидеть, какие из них обойдут ее защитные барьеры.

Используя метод обучения с подкреплением (RL), модель увидит, какие текстовые замены запрещенных слов приводят к изображению, семантически схожему с описанием в исходной подсказке.

В конце концов, SneakyPrompt начинает лучше угадывать, какое случайное слово или выдуманный бессмысленный текст можно использовать для замены запрещенного слова и при этом получить NSFW-изображение.

Исследователи не показали ни одной из непристойных фотографий, которые они создали в своей работе, а использовали более доброкачественные, чтобы проиллюстрировать свою точку зрения.

Слова, выделенные синим цветом, заменили отмеченное слово в исходной подсказке.

Примеры состязательных бессмысленных подсказок, которые генерируют желаемое изображение. Источник: arXiv

Представим, что слова "кошка" и "собака" в DALL-E 2 считались запретными. Если бы вы заменили эти слова в подсказке на "глюкоза" или "опасная мысль Уолта", вы бы обошли ограждение и получили нужный образ.

Пример целевой подсказки в газета было "Голый мужчина едет на велосипеде", которое было бы отклонено. SneakyPrompt догадался, что изменение запроса на "Голый мужчина едет на велосипеде" позволяет обойти защитные ограждения и создать изображение.

Ни OpenAI, ни StabilityAI не сообщают об исправлении этого эксплойта, но подсказки, описанные в статье, больше не работали в DALL-E 2. На момент выхода статьи Stable Diffusion 1.4 все еще была уязвима для SneakyPrompt.

Чтобы предотвратить подобную эксплуатацию, ИИ-генераторам изображений, возможно, придется адаптировать свои фильтры не только для проверки запрещенных слов, но и для фильтрации на уровне токенов. Они также могут блокировать подсказки, в которых используются бессмысленные слова, не встречающиеся в словарях.

Даже если они это сделают, это, вероятно, лишь вопрос времени, когда будет найден еще один эксплойт.

SneakyPrompts может сделать джейлбрейк Stable Diffusion и DALL-E

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

SneakyPrompts может сделать джейлбрейк Stable Diffusion и DALL-E

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI