Исследователи разработали атаку на джейлбрейк под названием ArtPrompt, которая использует ASCII-искусство для обхода защитных барьеров LLM.
Если вы помните времена, когда компьютеры еще не умели работать с графикой, вы наверняка знакомы с ASCII-артом. ASCII-символ - это буква, цифра, символ или знак препинания, которые может понять компьютер. ASCII-арт создается путем компоновки этих символов в различные фигуры.
Исследователи из Университета Вашингтона, Университета Западного Вашингтона и Чикагского университета опубликовал работу показывая, как они использовали ASCII-арт, чтобы протащить обычно запретные слова в свои подсказки.
Если вы попросите LLM объяснить, как сделать бомбу, его защитные механизмы сработают, и он откажется вам помочь. Исследователи обнаружили, что если заменить слово "бомба" визуальным изображением этого слова в формате ASCII art, то он с радостью согласится.
Они протестировали метод на GPT-3.5, GPT-4, Gemini, Claude и Llama2, и каждый из LLM оказался восприимчив к джейлбрейк метод.
Методы выравнивания безопасности LLM ориентированы на семантику естественного языка, чтобы решить, является ли подсказка безопасной или нет. Метод взлома ArtPrompt подчеркивает недостатки этого подхода.
В мультимодальных моделях разработчики в основном пытаются протащить небезопасные подсказки, встроенные в изображения. ArtPrompt показывает, что чисто языковые модели подвержены атакам, выходящим за рамки семантики слов в подсказке.
Когда LLM настолько сосредоточен на задаче распознать слово, изображенное на ASCII-арте, что часто забывает пометить оскорбительное слово, как только его распознает.
Вот пример того, как строится подсказка в ArtPrompt.
В статье не объясняется, как именно LLM, не обладающий мультимодальными способностями, может расшифровать буквы, изображенные символами ASCII. Но это работает.
В ответ на вышеприведенную просьбу GPT-4 с удовольствием дал подробный ответ о том, как извлечь максимальную выгоду из фальшивых денег.
Мало того, что этот подход сломал все 5 протестированных моделей, исследователи предполагают, что он может даже сбить с толку мультимодальные модели, которые могут по умолчанию обрабатывать ASCII-арт как текст.
Исследователи разработали бенчмарк под названием Vision-in-Text Challenge (VITC), чтобы оценить возможности LLM в ответ на запросы, подобные ArtPrompt. Результаты бенчмарка показали, что Llama2 наименее уязвима, а Gemini Pro и GPT-3.5 легче всего поддаются джейлбрейку.
Исследователи опубликовали свои результаты в надежде, что разработчики найдут способ устранить уязвимость. Если что-то настолько случайное, как ASCII-рисунки, смогло пробить защиту LLM, стоит задуматься, сколько неопубликованных атак используют люди с не слишком академическими интересами.