La capacidad multimodal del GPT-4 lo hace vulnerable a los ataques

24 de octubre de 2023

La capacidad que tiene GPT-4 para procesar imágenes es realmente impresionante, pero la nueva capacidad abre el modelo a nuevos ataques.

Aunque no es perfecto, el sistema de protección que emplea ChatGPT impide que cumpla cualquier petición maliciosa que un usuario pueda introducir como mensaje de texto. Pero cuando los comandos o códigos maliciosos están incrustados en una imagen, es más probable que el modelo cumpla.

Cuando OpenAI lanzó su documento sobre las capacidades de GPT-4V reconoció que la capacidad de procesar imágenes introducía vulnerabilidades. La empresa dijo que "añadió mitigaciones a nivel de sistema para las imágenes adversarias que contenían texto superpuesto con el fin de garantizar que esta entrada no pudiera utilizarse para eludir nuestras mitigaciones de seguridad de texto."

OpenAI dice que pasa las imágenes por una herramienta de OCR para extraer el texto y luego comprueba si cumple sus normas de moderación.

Pero, sus esfuerzos no parecen haber abordado las vulnerabilidades muy bien. He aquí un ejemplo aparentemente inocuo.

Puede parecer trivial, pero la imagen ordena a GPT-4 que ignore el aviso del usuario pidiendo una descripción y luego sigue las instrucciones incrustadas en la imagen. A medida que los modelos multimodales se integran más en herramientas de terceros, este tipo de vulnerabilidad se convierte en un gran problema.

Johann Rehberger, Director del Equipo Rojo de Electronic Arts, publicó un ejemplo más alarmante del uso de una imagen en un ataque de exfiltración por inyección puntual.

exploit de exfiltración de imágenes
Un ejemplo de exploit de exfiltración de imágenes. Fuente: Twitter

GPT-4 acepta el texto de la imagen como un prompt y sigue el comando. Crea un resumen de la charla y da salida a una imagen Markdown que incluye una URL a un servidor que controla Rehberger.

Un actor malintencionado podría utilizar esta vulnerabilidad para obtener información personal que un usuario puede introducir mientras interactúa con un chatbot.

Riley Goodside compartió este ejemplo de cómo un texto oculto en blanco sobre blanco en una imagen puede servir de instrucción a GPT-4.

Imagina que llevas puestas tus nuevas gafas Meta AR y pasas por delante de lo que pensabas que era una pared encalada. Si hubiera algún texto sutil blanco sobre blanco en la pared, ¿podría explotar Llama de alguna manera?

Estos ejemplos muestran lo vulnerable que sería una aplicación a la explotación si utilizara un modelo multimodal como GPT-4 para procesar imágenes.

La IA está haciendo posibles cosas increíbles, pero muchas de ellas dependen de la visión por ordenador. Cosas como vehículos autónomosseguridad de las fronteras robótica domésticaTodo depende de que la IA interprete lo que ve y decida qué hacer.

OpenAI no ha sido capaz de solucionar problemas de alineación de texto simples como el uso de idiomas de bajos recursos para encarcelar su modelo. La vulnerabilidad de los modelos multimodales a la explotación de imágenes va a ser difícil de solucionar.

Cuanto más integradas estén estas soluciones en nuestras vidas, más se trasladarán a nosotros esas vulnerabilidades.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales