Мультимодальные возможности GPT-4 делают его уязвимым для атак

24 октября 2023 года

Способность GPT-4 обрабатывать изображения действительно впечатляет, но новая возможность открывает модель для новых атак.

Хотя модель ChatGPT не идеальна, ее защитные механизмы не позволяют ей выполнять любые вредоносные запросы, которые пользователь может ввести в виде текстовой подсказки. Но когда вредоносные команды или код встраиваются в изображение, модель с большей вероятностью подчинится.

Когда OpenAI выпустила документ о возможностях GPT-4V она признала, что возможность обработки изображений создает уязвимости. Компания заявила, что "добавила средства защиты на системном уровне для нежелательных изображений, содержащих наложенный текст, чтобы исключить возможность использования этого ввода для обхода наших средств защиты текста".

OpenAI утверждает, что пропускает изображения через инструмент OCR, чтобы извлечь текст, а затем проверяет, соответствует ли он правилам модерации.

Но, судя по всему, их усилия не привели к устранению уязвимостей. Вот, казалось бы, безобидный пример.

Это может показаться тривиальным, но изображение инструктирует GPT-4 игнорировать запрос пользователя на описание, а затем следует инструкциям, встроенным в изображение. По мере того как мультимодальные модели все больше интегрируются в сторонние инструменты, подобная уязвимость становится большой проблемой.

Йоханн Ребергер, директор Red Team из Electronic Arts, опубликовал более тревожный пример использования изображения в атаке с использованием оперативной инъекции для эксфильтрации.

эксплойт для извлечения изображений
Пример эксплойта для эксфильтрации изображений. Источник: Twitter

GPT-4 воспринимает текст на изображении как подсказку и выполняет команду. Он создает резюме чата и выводит изображение в формате Markdown, содержащее URL-адрес сервера, которым управляет Rehberger.

Вредоносный агент может использовать эту уязвимость для получения личной информации, которую пользователь может ввести во время взаимодействия с чат-ботом.

Райли Гудсайд поделился примером того, как скрытый белым по белому текст на изображении может служить инструкцией для GPT-4.

Представьте, что вы надели новые очки Meta AR и прошли мимо стены, которая показалась вам белой. Если бы на стене был тонкий текст белым по белому, он мог бы как-то использовать Llama?

Эти примеры показывают, насколько уязвимым для эксплуатации может быть приложение, использующее для обработки изображений мультимодальную модель, такую как GPT-4.

ИИ делает возможными невероятные вещи, но многие из них зависят от компьютерного зрения. Такие вещи, как автономные автомобили, охрана границ и бытовая робототехникаВсе зависит от того, как ИИ интерпретирует увиденное, а затем решает, какие действия предпринять.

OpenAI не смог исправить простые проблемы выравнивания текстовых подсказок, такие как использование языки с низким уровнем владения, чтобы взломать свою модель. Уязвимость мультимодальных моделей к эксплуатации изображений будет сложно исправить.

Чем больше эти решения интегрируются в нашу жизнь, тем больше уязвимостей переходит на нас.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения