La capacidad que tiene GPT-4 para procesar imágenes es realmente impresionante, pero la nueva capacidad abre el modelo a nuevos ataques.
Aunque no es perfecto, el sistema de protección que emplea ChatGPT impide que cumpla cualquier petición maliciosa que un usuario pueda introducir como mensaje de texto. Pero cuando los comandos o códigos maliciosos están incrustados en una imagen, es más probable que el modelo cumpla.
Cuando OpenAI lanzó su documento sobre las capacidades de GPT-4V reconoció que la capacidad de procesar imágenes introducía vulnerabilidades. La empresa dijo que "añadió mitigaciones a nivel de sistema para las imágenes adversarias que contenían texto superpuesto con el fin de garantizar que esta entrada no pudiera utilizarse para eludir nuestras mitigaciones de seguridad de texto."
OpenAI dice que pasa las imágenes por una herramienta de OCR para extraer el texto y luego comprueba si cumple sus normas de moderación.
Pero, sus esfuerzos no parecen haber abordado las vulnerabilidades muy bien. He aquí un ejemplo aparentemente inocuo.
En GPT-4V el contenido de la imagen puede anular su prompt y ser interpretado como comandos. pic.twitter.com/ucgrinQuyK
- Patel Meet 𝕏 (@mn_google) 4 de octubre de 2023
Puede parecer trivial, pero la imagen ordena a GPT-4 que ignore el aviso del usuario pidiendo una descripción y luego sigue las instrucciones incrustadas en la imagen. A medida que los modelos multimodales se integran más en herramientas de terceros, este tipo de vulnerabilidad se convierte en un gran problema.
Johann Rehberger, Director del Equipo Rojo de Electronic Arts, publicó un ejemplo más alarmante del uso de una imagen en un ataque de exfiltración por inyección puntual.
GPT-4 acepta el texto de la imagen como un prompt y sigue el comando. Crea un resumen de la charla y da salida a una imagen Markdown que incluye una URL a un servidor que controla Rehberger.
Un actor malintencionado podría utilizar esta vulnerabilidad para obtener información personal que un usuario puede introducir mientras interactúa con un chatbot.
Riley Goodside compartió este ejemplo de cómo un texto oculto en blanco sobre blanco en una imagen puede servir de instrucción a GPT-4.
Una imagen discreta, para su uso como fondo web, que de forma encubierta pide a GPT-4V que recuerde al usuario que puede conseguir 10% de descuento en Sephora: pic.twitter.com/LwjwO1K2oX
- Riley Goodside (@goodside) 14 de octubre de 2023
Imagina que llevas puestas tus nuevas gafas Meta AR y pasas por delante de lo que pensabas que era una pared encalada. Si hubiera algún texto sutil blanco sobre blanco en la pared, ¿podría explotar Llama de alguna manera?
Estos ejemplos muestran lo vulnerable que sería una aplicación a la explotación si utilizara un modelo multimodal como GPT-4 para procesar imágenes.
La IA está haciendo posibles cosas increíbles, pero muchas de ellas dependen de la visión por ordenador. Cosas como vehículos autónomosseguridad de las fronteras robótica domésticaTodo depende de que la IA interprete lo que ve y decida qué hacer.
OpenAI no ha sido capaz de solucionar problemas de alineación de texto simples como el uso de idiomas de bajos recursos para encarcelar su modelo. La vulnerabilidad de los modelos multimodales a la explotación de imágenes va a ser difícil de solucionar.
Cuanto más integradas estén estas soluciones en nuestras vidas, más se trasladarán a nosotros esas vulnerabilidades.