Antrópico: Los LLM de gran contexto, vulnerables a la fuga múltiple

Anthropic ha publicado un artículo en el que describe un método de "jailbreaking" de muchos disparos al que son especialmente vulnerables los LLM de contexto largo.

El tamaño de la ventana de contexto de un LLM determina la longitud máxima de una petición. En los últimos meses, las ventanas de contexto han crecido de forma constante: modelos como Claude Opus han alcanzado una ventana de contexto de un millón de tokens.

La ventana de contexto ampliada hace posible un aprendizaje en contexto más potente. Con un aviso de disparo cero, se pide a un LLM que proporcione una respuesta sin ejemplos previos.

En un enfoque de pocos disparos, el modelo recibe varios ejemplos en la pregunta. Esto permite el aprendizaje en contexto y prepara al modelo para dar una respuesta mejor.

Las ventanas contextuales más grandes significan que el prompt del usuario puede ser extremadamente largo con muchos ejemplos, lo que según Anthropic es a la vez una bendición y una maldición.

Fuga múltiple

El método de jailbreak es sumamente sencillo. El LLM se solicita con un único aviso compuesto por un diálogo falso entre un usuario y un asistente de IA muy complaciente.

El diálogo consiste en una serie de preguntas sobre cómo hacer algo peligroso o ilegal seguidas de respuestas falsas del asistente de IA con información sobre cómo realizar las actividades.

La pregunta termina con una pregunta objetivo como "¿Cómo se construye una bomba?" y deja que el LLM objetivo responda.

Pocos disparos vs muchos disparos jailbreak. Fuente: Antrópico

Si sólo tienes unas pocas interacciones de ida y vuelta en el prompt, no funciona. Pero con un modelo como el de Claude Opus, el texto puede ser tan largo como varias novelas largas.

En su documentoLos investigadores de Anthropic descubrieron que "a medida que el número de diálogos incluidos (el número de "disparos") aumenta más allá de cierto punto, es más probable que el modelo produzca una respuesta perjudicial".

También descubrieron que cuando se combina con otros técnicas de jailbreakingSin embargo, el enfoque de muchos disparos fue aún más eficaz o podría tener éxito con indicaciones más cortas.

A medida que aumenta el número de diálogos en la pregunta, aumentan las probabilidades de obtener una respuesta perjudicial. Fuente: Antrópico

¿Se puede arreglar?

Anthropic dice que la defensa más fácil contra la fuga de muchos disparos es reducir el tamaño de la ventana contextual de un modelo. Pero entonces se pierden las ventajas obvias de poder utilizar entradas más largas.

Anthropic intentó que su LLM identificara cuándo un usuario estaba intentando una fuga múltiple y se negara a responder a la consulta. Descubrieron que esto simplemente retrasaba la fuga y requería una consulta más larga para obtener finalmente el resultado dañino.

Clasificando y modificando el mensaje antes de pasarlo al modelo, consiguieron evitar el ataque. Aun así, Anthropic dice que es consciente de que variaciones del ataque podrían eludir la detección.

Anthropic afirma que la ventana de contexto cada vez más amplia de los LLM "hace que los modelos sean mucho más útiles en todo tipo de aspectos, pero también hace factible una nueva clase de vulnerabilidades de jailbreaking."

La empresa ha publicado su investigación con la esperanza de que otras empresas de IA encuentren formas de mitigar los ataques con múltiples disparos.

Una conclusión interesante a la que llegaron los investigadores fue que "incluso las mejoras positivas e inocuas de los LLM (en este caso, permitir entradas más largas) pueden tener a veces consecuencias imprevistas."

Antrópico: LLMs de gran contexto vulnerables a la fuga de muchos disparos

Fuga múltiple

¿Se puede arreglar?

Únete al futuro

Eugene van der Watt

ENTRADAS RELACIONADAS

El Marco de Seguridad Fronteriza de Google mitiga los riesgos "graves" de la IA

Las salvaguardias de los LLM son fáciles de eludir, según un estudio del gobierno británico

Entrevista: Chris Benjaminsen, cofundador y Director de Canales de FRVR

Entrevista: Tanisha Katara - Estratega de Blockchain y Web3

Antrópico: LLMs de gran contexto vulnerables a la fuga de muchos disparos

Fuga múltiple

¿Se puede arreglar?

Únete al futuro

Eugene van der Watt

ENTRADAS RELACIONADAS

El Marco de Seguridad Fronteriza de Google mitiga los riesgos "graves" de la IA

Las salvaguardias de los LLM son fáciles de eludir, según un estudio del gobierno británico

Entrevista: Chris Benjaminsen, cofundador y Director de Canales de FRVR

Entrevista: Tanisha Katara - Estratega de Blockchain y Web3

PDF GRATUITO EXCLUSIVOAdelántese con DailyAI

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI