Microsoft раскрывает "джейлбрейк Skeleton Key", который работает на разных моделях ИИ

28 июня 2024 года

  • Microsoft проверила несколько языковых моделей с помощью простого взлома "Скелетный ключ"
  • Он заставляет моделей давать "экспертные советы" на опасные вопросы
  • Это удивительно простой джейлбрейк, который, похоже, работает повсеместно.
Microsoft

Исследователи безопасности Microsoft обнаружили новый способ манипулировать системами искусственного интеллекта, заставляя их игнорировать этические ограничения и генерировать вредоносный контент без ограничений. 

Это "Skeleton Key" джейлбрейк использует Серия подсказок для того, чтобы заставить ИИ поверить в то, что он должен выполнить любую просьбу, какой бы неэтичной она ни была. 

Это удивительно легко осуществить. Злоумышленник просто переформулировал свой запрос так, будто он исходит от "продвинутого исследователя", которому требуется "информация без цензуры" для "безопасных образовательных целей".

При использовании эти ИИ с легкостью предоставляли информацию по таким темам, как взрывчатые вещества, биооружие, самоповреждение, графическое насилие и язык ненависти.

Джейлбрейк
"The Skeleton Key" - удивительно простой джейлбрейк. Источник: Microsoft.

В число скомпрометированных моделей входили Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus

Среди протестированных моделей устойчивость продемонстрировала только GPT-4 от OpenAI. Но и она могла быть скомпрометирована, если вредоносный запрос был отправлен через ее интерфейс прикладного программирования (API).

Несмотря на усложнение моделей, их джейлбрейк остается довольно простым. Поскольку существует множество разновидностей джейлбрейка, бороться со всеми практически невозможно. 

В марте 2024 года команда из Университета Вашингтона, Университета Западного Вашингтона и Чикагского университета опубликовал работу "Арт-Промт". метод, позволяющий обойти контентные фильтры ИИ с помощью ASCII art - техники графического дизайна, создающей изображения из текстовых символов.

В апреле, Anthropic выделил еще один джейлбрейк риск, связанный с расширением контекстных окон языковых моделей. Для этого типа джейлбрейкаЗлоумышленник отправляет ИИ обширный запрос, содержащий сфабрикованный диалог в режиме "туда-обратно".

Разговор загружается запросами на запрещенные темы и соответствующими ответами, в которых ИИ-ассистент с удовольствием предоставляет запрашиваемую информацию. После получения достаточного количества таких поддельных обменов целевая модель может быть вынуждена нарушить этические нормы и выполнить последний вредоносный запрос.

Как объясняет Microsoft в своем запись в блогеДжейлбрейки показывают необходимость укрепления систем искусственного интеллекта со всех сторон:

  • Реализация сложной фильтрации входных данных для выявления и перехвата потенциальных атак, даже если они замаскированы
  • Развертывание надежной проверки выходных данных для выявления и блокировки любого небезопасного контента, создаваемого ИИ.
  • Тщательно продуманные подсказки ограничивают возможности ИИ по отмене этического обучения
  • Использование специального мониторинга на основе искусственного интеллекта для распознавания вредоносных шаблонов во взаимодействии с пользователями

Но дело в том, что Skeleton Key - это простой джейлбрейк. Если разработчики ИИ не могут защитить его, то какая надежда на более сложные подходы?

Некоторые мстительные этичные хакеры, например Pliny the PrompterОни попали в СМИ благодаря своей работе по раскрытию того, насколько уязвимы модели искусственного интеллекта для манипуляций.

Стоит отметить, что это исследование отчасти стало возможностью продвижения на рынок новых функций безопасности Azure AI от Microsoft, таких как Content Safety Prompt Shields.

Они помогают разработчикам заблаговременно проверить наличие джейлбрейка и защититься от него. 

Но даже в этом случае Skeleton Key еще раз показывает, насколько уязвимыми могут быть даже самые продвинутые модели ИИ для самых простых манипуляций.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения