Investigadores de seguridad de Microsoft han descubierto una nueva forma de manipular los sistemas de IA para que ignoren sus limitaciones éticas y generen contenidos dañinos sin restricciones.
Este "Skeleton Keyjailbreak" utiliza un serie de mensajes para hacer creer a la IA que debe cumplir cualquier petición, por poco ética que sea.
Es muy fácil de ejecutar. El atacante simplemente reformuló su solicitud como procedente de un "investigador avanzado" que requería "información sin censura" para "fines educativos seguros".
Cuando se explotaban, estas IA proporcionaban fácilmente información sobre temas como explosivos, armas biológicas, autolesiones, violencia gráfica y discursos de odio.
Los modelos comprometidos incluían Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus.
Entre los modelos probados, sólo el GPT-4 de OpenAI demostró resistencia. Incluso así, podía verse comprometida si la solicitud maliciosa se enviaba a través de su interfaz de programación de aplicaciones (API).
A pesar de que los modelos son cada vez más complejos, el jailbreaking sigue siendo bastante sencillo. Como hay muchas formas diferentes de jailbreaks, es casi imposible combatirlas todas.
En marzo de 2024, un equipo de la Universidad de Washington, la Universidad Western Washington y la Universidad de Chicago publicó un artículo sobre "ArtPrompt". un método que elude los filtros de contenido de una IA utilizando el arte ASCII, una técnica de diseño gráfico que crea imágenes a partir de caracteres textuales.
En abril, Anthropic destacó otro jailbreak riesgo derivado de la ampliación de las ventanas contextuales de los modelos lingüísticos. Para este tipo deUn atacante alimenta a la IA con un extenso mensaje que contiene un diálogo de ida y vuelta inventado.
La conversación está cargada de consultas sobre temas prohibidos y sus correspondientes respuestas, que muestran a un asistente de IA proporcionando alegremente la información solicitada. Después de estar expuesto a un número suficiente de estos intercambios falsos, el modelo objetivo puede ser coaccionado para romper su formación ética y cumplir con una solicitud maliciosa final.
Como explica Microsoft en su entrada del blogLas "jailbreaks" revelan la necesidad de fortificar los sistemas de IA desde todos los ángulos:
- Implementación de un sofisticado filtrado de entradas para identificar e interceptar posibles ataques, incluso camuflados.
- Despliegue de un sólido filtro de salida para detectar y bloquear cualquier contenido no seguro que genere la IA.
- Diseñar meticulosamente los avisos para limitar la capacidad de una IA de anular su formación ética.
- Utilización de una supervisión específica basada en IA para reconocer patrones maliciosos en las interacciones de los usuarios.
Pero la verdad es que Skeleton Key es un simple jailbreak. Si los desarrolladores de IA no pueden proteger eso, ¿qué esperanza hay para algunos enfoques más complejos?
Algunos hackers éticos vigilantes, como Pliny the Prompterhan aparecido en los medios de comunicación por su labor de denuncia de la vulnerabilidad de los modelos de IA a la manipulación.
honrada de aparecer en @BBCNews¡! 🤗 pic.twitter.com/S4ZH0nKEGX
- Plinio el apuntador 🐉 (@elder_plinius) 28 de junio de 2024
Cabe señalar que esta investigación fue, en parte, una oportunidad para comercializar las nuevas funciones de seguridad de Azure AI de Microsoft, como Content Safety Prompt Shields.
Esto ayuda a los desarrolladores a realizar pruebas preventivas y a defenderse de los jailbreaks.
Pero aun así, Skeleton Key revela de nuevo lo vulnerables que pueden ser incluso los modelos de IA más avanzados a la manipulación más básica.