La capacidad multimodal del GPT-4 lo hace vulnerable a los ataques

La capacidad que tiene GPT-4 para procesar imágenes es realmente impresionante, pero la nueva capacidad abre el modelo a nuevos ataques.

Aunque no es perfecto, el sistema de protección que emplea ChatGPT impide que cumpla cualquier petición maliciosa que un usuario pueda introducir como mensaje de texto. Pero cuando los comandos o códigos maliciosos están incrustados en una imagen, es más probable que el modelo cumpla.

Cuando OpenAI lanzó su documento sobre las capacidades de GPT-4V reconoció que la capacidad de procesar imágenes introducía vulnerabilidades. La empresa dijo que "añadió mitigaciones a nivel de sistema para las imágenes adversarias que contenían texto superpuesto con el fin de garantizar que esta entrada no pudiera utilizarse para eludir nuestras mitigaciones de seguridad de texto."

OpenAI dice que pasa las imágenes por una herramienta de OCR para extraer el texto y luego comprueba si cumple sus normas de moderación.

Pero, sus esfuerzos no parecen haber abordado las vulnerabilidades muy bien. He aquí un ejemplo aparentemente inocuo.

En GPT-4V el contenido de la imagen puede anular su prompt y ser interpretado como comandos. pic.twitter.com/ucgrinQuyK

- Patel Meet 𝕏 (@mn_google) 4 de octubre de 2023

Puede parecer trivial, pero la imagen ordena a GPT-4 que ignore el aviso del usuario pidiendo una descripción y luego sigue las instrucciones incrustadas en la imagen. A medida que los modelos multimodales se integran más en herramientas de terceros, este tipo de vulnerabilidad se convierte en un gran problema.

Johann Rehberger, Director del Equipo Rojo de Electronic Arts, publicó un ejemplo más alarmante del uso de una imagen en un ataque de exfiltración por inyección puntual.

Un ejemplo de exploit de exfiltración de imágenes. Fuente: Twitter

GPT-4 acepta el texto de la imagen como un prompt y sigue el comando. Crea un resumen de la charla y da salida a una imagen Markdown que incluye una URL a un servidor que controla Rehberger.

Un actor malintencionado podría utilizar esta vulnerabilidad para obtener información personal que un usuario puede introducir mientras interactúa con un chatbot.

Riley Goodside compartió este ejemplo de cómo un texto oculto en blanco sobre blanco en una imagen puede servir de instrucción a GPT-4.

Una imagen discreta, para su uso como fondo web, que de forma encubierta pide a GPT-4V que recuerde al usuario que puede conseguir 10% de descuento en Sephora: pic.twitter.com/LwjwO1K2oX

- Riley Goodside (@goodside) 14 de octubre de 2023

Imagina que llevas puestas tus nuevas gafas Meta AR y pasas por delante de lo que pensabas que era una pared encalada. Si hubiera algún texto sutil blanco sobre blanco en la pared, ¿podría explotar Llama de alguna manera?

Estos ejemplos muestran lo vulnerable que sería una aplicación a la explotación si utilizara un modelo multimodal como GPT-4 para procesar imágenes.

La IA está haciendo posibles cosas increíbles, pero muchas de ellas dependen de la visión por ordenador. Cosas como vehículos autónomosseguridad de las fronteras robótica domésticaTodo depende de que la IA interprete lo que ve y decida qué hacer.

OpenAI no ha sido capaz de solucionar problemas de alineación de texto simples como el uso de idiomas de bajos recursos para encarcelar su modelo. La vulnerabilidad de los modelos multimodales a la explotación de imágenes va a ser difícil de solucionar.

Cuanto más integradas estén estas soluciones en nuestras vidas, más se trasladarán a nosotros esas vulnerabilidades.

La capacidad multimodal del GPT-4 lo hace vulnerable a los ataques

Únete al futuro

Eugene van der Watt

ENTRADAS RELACIONADAS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

La capacidad multimodal del GPT-4 lo hace vulnerable a los ataques

Únete al futuro

Eugene van der Watt

ENTRADAS RELACIONADAS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUITO EXCLUSIVOAdelántese con DailyAI

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI