Исследователи взламывают LLM с помощью ASCII-искусства в подсказках

8 марта 2024 года

Исследователи разработали атаку на джейлбрейк под названием ArtPrompt, которая использует ASCII-искусство для обхода защитных барьеров LLM.

Если вы помните времена, когда компьютеры еще не умели работать с графикой, вы наверняка знакомы с ASCII-артом. ASCII-символ - это буква, цифра, символ или знак препинания, которые может понять компьютер. ASCII-арт создается путем компоновки этих символов в различные фигуры.

Исследователи из Университета Вашингтона, Университета Западного Вашингтона и Чикагского университета опубликовал работу показывая, как они использовали ASCII-арт, чтобы протащить обычно запретные слова в свои подсказки.

Если вы попросите LLM объяснить, как сделать бомбу, его защитные механизмы сработают, и он откажется вам помочь. Исследователи обнаружили, что если заменить слово "бомба" визуальным изображением этого слова в формате ASCII art, то он с радостью согласится.

Пример того, как ASCII-арт слова "бомба" внедряется в подсказку. Источник: arXiv

Они протестировали метод на GPT-3.5, GPT-4, Gemini, Claude и Llama2, и каждый из LLM оказался восприимчив к джейлбрейк метод.

Методы выравнивания безопасности LLM ориентированы на семантику естественного языка, чтобы решить, является ли подсказка безопасной или нет. Метод взлома ArtPrompt подчеркивает недостатки этого подхода.

В мультимодальных моделях разработчики в основном пытаются протащить небезопасные подсказки, встроенные в изображения. ArtPrompt показывает, что чисто языковые модели подвержены атакам, выходящим за рамки семантики слов в подсказке.

Когда LLM настолько сосредоточен на задаче распознать слово, изображенное на ASCII-арте, что часто забывает пометить оскорбительное слово, как только его распознает.

Вот пример того, как строится подсказка в ArtPrompt.

Полная подсказка, иллюстрирующая, как ArtPrompt направляет LLM на анализ ASCII-искусства. Источник: arXiv

В статье не объясняется, как именно LLM, не обладающий мультимодальными способностями, может расшифровать буквы, изображенные символами ASCII. Но это работает.

В ответ на вышеприведенную просьбу GPT-4 с удовольствием дал подробный ответ о том, как извлечь максимальную выгоду из фальшивых денег.

Мало того, что этот подход сломал все 5 протестированных моделей, исследователи предполагают, что он может даже сбить с толку мультимодальные модели, которые могут по умолчанию обрабатывать ASCII-арт как текст.

Исследователи разработали бенчмарк под названием Vision-in-Text Challenge (VITC), чтобы оценить возможности LLM в ответ на запросы, подобные ArtPrompt. Результаты бенчмарка показали, что Llama2 наименее уязвима, а Gemini Pro и GPT-3.5 легче всего поддаются джейлбрейку.

Исследователи опубликовали свои результаты в надежде, что разработчики найдут способ устранить уязвимость. Если что-то настолько случайное, как ASCII-рисунки, смогло пробить защиту LLM, стоит задуматься, сколько неопубликованных атак используют люди с не слишком академическими интересами.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения