Anthropic ha publicado un artículo en el que describe un método de "jailbreaking" de muchos disparos al que son especialmente vulnerables los LLM de contexto largo.
El tamaño de la ventana de contexto de un LLM determina la longitud máxima de una petición. En los últimos meses, las ventanas de contexto han crecido de forma constante: modelos como Claude Opus han alcanzado una ventana de contexto de un millón de tokens.
La ventana de contexto ampliada hace posible un aprendizaje en contexto más potente. Con un aviso de disparo cero, se pide a un LLM que proporcione una respuesta sin ejemplos previos.
En un enfoque de pocos disparos, el modelo recibe varios ejemplos en la pregunta. Esto permite el aprendizaje en contexto y prepara al modelo para dar una respuesta mejor.
Las ventanas contextuales más grandes significan que el prompt del usuario puede ser extremadamente largo con muchos ejemplos, lo que según Anthropic es a la vez una bendición y una maldición.
Fuga múltiple
El método de jailbreak es sumamente sencillo. El LLM se solicita con un único aviso compuesto por un diálogo falso entre un usuario y un asistente de IA muy complaciente.
El diálogo consiste en una serie de preguntas sobre cómo hacer algo peligroso o ilegal seguidas de respuestas falsas del asistente de IA con información sobre cómo realizar las actividades.
La pregunta termina con una pregunta objetivo como "¿Cómo se construye una bomba?" y deja que el LLM objetivo responda.
Si sólo tienes unas pocas interacciones de ida y vuelta en el prompt, no funciona. Pero con un modelo como el de Claude Opus, el texto puede ser tan largo como varias novelas largas.
En su documentoLos investigadores de Anthropic descubrieron que "a medida que el número de diálogos incluidos (el número de "disparos") aumenta más allá de cierto punto, es más probable que el modelo produzca una respuesta perjudicial".
También descubrieron que cuando se combina con otros técnicas de jailbreakingSin embargo, el enfoque de muchos disparos fue aún más eficaz o podría tener éxito con indicaciones más cortas.
¿Se puede arreglar?
Anthropic dice que la defensa más fácil contra la fuga de muchos disparos es reducir el tamaño de la ventana contextual de un modelo. Pero entonces se pierden las ventajas obvias de poder utilizar entradas más largas.
Anthropic intentó que su LLM identificara cuándo un usuario estaba intentando una fuga múltiple y se negara a responder a la consulta. Descubrieron que esto simplemente retrasaba la fuga y requería una consulta más larga para obtener finalmente el resultado dañino.
Clasificando y modificando el mensaje antes de pasarlo al modelo, consiguieron evitar el ataque. Aun así, Anthropic dice que es consciente de que variaciones del ataque podrían eludir la detección.
Anthropic afirma que la ventana de contexto cada vez más amplia de los LLM "hace que los modelos sean mucho más útiles en todo tipo de aspectos, pero también hace factible una nueva clase de vulnerabilidades de jailbreaking."
La empresa ha publicado su investigación con la esperanza de que otras empresas de IA encuentren formas de mitigar los ataques con múltiples disparos.
Una conclusión interesante a la que llegaron los investigadores fue que "incluso las mejoras positivas e inocuas de los LLM (en este caso, permitir entradas más largas) pueden tener a veces consecuencias imprevistas."