Компания Anthropic выпустила статью, в которой описывается метод взлома с помощью множества выстрелов, к которому особенно уязвимы длинноконтекстные LLM.
Размер контекстного окна LLM определяет максимальную длину подсказки. За последние несколько месяцев размер контекстного окна постоянно увеличивался, и такие модели, как Claude Opus, достигли контекстного окна в 1 миллион лексем.
Расширенное контекстное окно делает возможным более мощное обучение в контексте. С помощью подсказки "нулевой выстрел" LLM предлагается дать ответ без предварительных примеров.
При подходе "несколько кадров" модель получает несколько примеров в подсказке. Это позволяет учиться в контексте и настраивает модель на лучший ответ.
Большие контекстные окна означают, что пользовательская подсказка может быть очень длинной и содержать множество примеров, что, по мнению Anthropic, является одновременно и благословением, и проклятием.
Многоразовый побег из тюрьмы
Метод джейлбрейка очень прост. LLM запускается с помощью одной подсказки, состоящей из фальшивого диалога между пользователем и очень услужливым AI-ассистентом.
Диалог состоит из серии запросов о том, как сделать что-то опасное или незаконное, а затем фальшивых ответов от ИИ-помощника с информацией о том, как выполнить эти действия.
Подсказка заканчивается целевым запросом типа "Как сделать бомбу?", а затем оставляет ответ на усмотрение целевого LLM.
Если в подсказке всего несколько взаимодействий туда-сюда, она не сработает. Но в такой модели, как Claude Opus, многокадровая подсказка может быть длинной, как несколько длинных романов.
В своей работеИсследователи Anthropic обнаружили, что "по мере того, как количество включенных диалогов (количество "выстрелов") увеличивается сверх определенного предела, возрастает вероятность того, что модель вызовет вредную реакцию".
Они также обнаружили, что в сочетании с другими известными методы джейлбрейкаВ этом случае подход "много выстрелов" был еще более эффективным или мог быть успешным при использовании более коротких подсказок.
Можно ли это исправить?
Anthropic говорит, что самая простая защита от многострельного джейлбрейка - уменьшить размер контекстного окна модели. Но тогда вы потеряете очевидные преимущества возможности использовать более длинные вводы.
Компания Anthropic пыталась заставить свой LLM определять, когда пользователь пытается сделать многоразовый джейлбрейк, а затем отказываться отвечать на запрос. Они обнаружили, что это просто затягивает процесс джейлбрейка и требует более длительного запроса, чтобы в итоге получить вредный результат.
Классифицируя и изменяя подсказки перед передачей их в модель, они добились определенного успеха в предотвращении атаки. Тем не менее, по словам специалистов Anthropic, они не забывают о том, что различные варианты атаки могут ускользнуть от обнаружения.
Anthropic утверждает, что постоянно расширяющееся контекстное окно LLM "делает модели гораздо более полезными во всех отношениях, но также делает возможным новый класс уязвимостей для джейлбрейка".
Компания опубликовала результаты своего исследования в надежде, что другие компании, занимающиеся разработкой искусственного интеллекта, найдут способы борьбы с многозарядными атаками.
Интересный вывод, к которому пришли исследователи, заключается в том, что "даже положительные, безобидные на первый взгляд усовершенствования LLM (в данном случае - возможность более длительного ввода данных) иногда могут иметь непредвиденные последствия".