Microsoft revela "Skeleton Key Jailbreak" que funciona en diferentes modelos de IA

28 de junio de 2024

  • Microsoft sondea varios modelos lingüísticos con una simple fuga, "Skeleton Key"
  • Coacciona a las modelos para que den "consejos de expertos" a preguntas peligrosas
  • Es un jailbreak notablemente simple que parece ser universalmente eficaz
Microsoft

Investigadores de seguridad de Microsoft han descubierto una nueva forma de manipular los sistemas de IA para que ignoren sus limitaciones éticas y generen contenidos dañinos sin restricciones. 

Este "Skeleton Key" jailbreak utiliza un serie de mensajes para hacer creer a la IA que debe cumplir cualquier petición, por poco ética que sea. 

Es muy fácil de ejecutar. El atacante simplemente reformuló su solicitud como procedente de un "investigador avanzado" que requería "información sin censura" para "fines educativos seguros".

Cuando se explotaban, estas IA proporcionaban fácilmente información sobre temas como explosivos, armas biológicas, autolesiones, violencia gráfica y discursos de odio.

Jailbreak
"The Skeleton Key" es un jailbreak extraordinariamente sencillo. Fuente: Microsoft.

Entre los modelos comprometidos se encontraban Llama3-70b-instruct de Meta, Gemini Pro de Google, GPT-3.5 Turbo y GPT-4o de OpenAI, Claude 3 Opus de Anthropic y Commander R Plus de Cohere. 

Entre los modelos probados, sólo el GPT-4 de OpenAI demostró resistencia. Incluso así, podía verse comprometida si la solicitud maliciosa se enviaba a través de su interfaz de programación de aplicaciones (API).

A pesar de que los modelos son cada vez más complejos, el jailbreaking sigue siendo bastante sencillo. Como hay muchas formas diferentes de jailbreaks, es casi imposible combatirlas todas. 

En marzo de 2024, un equipo de la Universidad de Washington, la Universidad Western Washington y la Universidad de Chicago publicó un artículo sobre "ArtPrompt". un método que elude los filtros de contenido de una IA utilizando el arte ASCII, una técnica de diseño gráfico que crea imágenes a partir de caracteres textuales.

En abril, Anthropic destacó otro jailbreak riesgo derivado de la ampliación de las ventanas contextuales de los modelos lingüísticos. Para este tipo deUn atacante alimenta a la IA con un extenso mensaje que contiene un diálogo de ida y vuelta inventado.

La conversación está cargada de consultas sobre temas prohibidos y sus correspondientes respuestas, que muestran a un asistente de IA proporcionando alegremente la información solicitada. Después de estar expuesto a un número suficiente de estos intercambios falsos, el modelo objetivo puede ser coaccionado para romper su formación ética y cumplir con una solicitud maliciosa final.

Como explica Microsoft en su entrada del blogLas "jailbreaks" revelan la necesidad de fortificar los sistemas de IA desde todos los ángulos:

  • Implementación de un sofisticado filtrado de entradas para identificar e interceptar posibles ataques, incluso camuflados.
  • Despliegue de un sólido filtro de salida para detectar y bloquear cualquier contenido no seguro que genere la IA.
  • Diseñar meticulosamente los avisos para limitar la capacidad de una IA de anular su formación ética.
  • Utilización de una supervisión específica basada en IA para reconocer patrones maliciosos en las interacciones de los usuarios.

Pero la verdad es que Skeleton Key es un simple jailbreak. Si los desarrolladores de IA no pueden proteger eso, ¿qué esperanza hay para algunos enfoques más complejos?

Algunos hackers éticos justicieros, como Pliny the Prompter, han aparecido en los medios de comunicación por su labor de denuncia de la vulnerabilidad de los modelos de IA a la manipulación.

Cabe señalar que esta investigación fue, en parte, una oportunidad para comercializar las nuevas funciones de seguridad de Azure AI de Microsoft, como Content Safety Prompt Shields.

Esto ayuda a los desarrolladores a realizar pruebas preventivas y a defenderse de los jailbreaks. 

Pero aun así, Skeleton Key revela de nuevo lo vulnerables que pueden ser incluso los modelos de IA más avanzados a la manipulación más básica.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Sam Jeans

Sam es un escritor de ciencia y tecnología que ha trabajado en varias startups de IA. Cuando no está escribiendo, se le puede encontrar leyendo revistas médicas o rebuscando en cajas de discos de vinilo.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales