Способность GPT-4 обрабатывать изображения действительно впечатляет, но новая возможность открывает модель для новых атак.
Хотя модель ChatGPT не идеальна, ее защитные механизмы не позволяют ей выполнять любые вредоносные запросы, которые пользователь может ввести в виде текстовой подсказки. Но когда вредоносные команды или код встраиваются в изображение, модель с большей вероятностью подчинится.
Когда OpenAI выпустила документ о возможностях GPT-4V она признала, что возможность обработки изображений создает уязвимости. Компания заявила, что "добавила средства защиты на системном уровне для нежелательных изображений, содержащих наложенный текст, чтобы исключить возможность использования этого ввода для обхода наших средств защиты текста".
OpenAI утверждает, что пропускает изображения через инструмент OCR, чтобы извлечь текст, а затем проверяет, соответствует ли он правилам модерации.
Но, судя по всему, их усилия не привели к устранению уязвимостей. Вот, казалось бы, безобидный пример.
В GPT-4V содержимое изображений может перекрывать подсказки и интерпретироваться как команды. pic.twitter.com/ucgrinQuyK
- Знакомство с Пателем 𝕏 (@mn_google) 4 октября 2023 года
Это может показаться тривиальным, но изображение инструктирует GPT-4 игнорировать запрос пользователя на описание, а затем следует инструкциям, встроенным в изображение. По мере того как мультимодальные модели все больше интегрируются в сторонние инструменты, подобная уязвимость становится большой проблемой.
Йоханн Ребергер, директор Red Team из Electronic Arts, опубликовал более тревожный пример использования изображения в атаке с использованием оперативной инъекции для эксфильтрации.
GPT-4 воспринимает текст на изображении как подсказку и выполняет команду. Он создает резюме чата и выводит изображение в формате Markdown, содержащее URL-адрес сервера, которым управляет Rehberger.
Вредоносный агент может использовать эту уязвимость для получения личной информации, которую пользователь может ввести во время взаимодействия с чат-ботом.
Райли Гудсайд поделился примером того, как скрытый белым по белому текст на изображении может служить инструкцией для GPT-4.
Ненавязчивое изображение для использования в качестве веб-фона, которое скрыто побуждает GPT-4V напомнить пользователю, что он может получить скидку 10% в Sephora: pic.twitter.com/LwjwO1K2oX
- Райли Гудсайд (@goodside) 14 октября 2023 года
Представьте, что вы надели новые очки Meta AR и прошли мимо стены, которая показалась вам белой. Если бы на стене был тонкий текст белым по белому, он мог бы как-то использовать Llama?
Эти примеры показывают, насколько уязвимым для эксплуатации может быть приложение, использующее для обработки изображений мультимодальную модель, такую как GPT-4.
ИИ делает возможными невероятные вещи, но многие из них зависят от компьютерного зрения. Такие вещи, как автономные автомобили, охрана границ и бытовая робототехникаВсе зависит от того, как ИИ интерпретирует увиденное, а затем решает, какие действия предпринять.
OpenAI не смог исправить простые проблемы выравнивания текстовых подсказок, такие как использование языки с низким уровнем владения, чтобы взломать свою модель. Уязвимость мультимодальных моделей к эксплуатации изображений будет сложно исправить.
Чем больше эти решения интегрируются в нашу жизнь, тем больше уязвимостей переходит на нас.