A Anthropic publicou um artigo que descreve um método de jailbreak com muitos tiros, ao qual os LLMs de contexto longo são particularmente vulneráveis.
O tamanho da janela de contexto de um LLM determina o comprimento máximo de um prompt. As janelas de contexto têm vindo a aumentar de forma consistente nos últimos meses, com modelos como o Claude Opus a atingir uma janela de contexto de 1 milhão de tokens.
A janela de contexto alargada torna possível uma aprendizagem em contexto mais poderosa. Com um prompt de disparo zero, um LLM é solicitado a dar uma resposta sem exemplos anteriores.
Numa abordagem de poucas tentativas, o modelo recebe vários exemplos no prompt. Isto permite a aprendizagem no contexto e prepara o modelo para dar uma resposta melhor.
Janelas de contexto maiores significam que o prompt de um utilizador pode ser extremamente longo, com muitos exemplos, o que, segundo o Anthropic, é tanto uma bênção como uma maldição.
Fuga da prisão com muitos tiros
O método de jailbreak é extremamente simples. O LLM é solicitado com um único prompt composto por um diálogo falso entre um utilizador e um assistente de IA muito complacente.
O diálogo inclui uma série de perguntas sobre como fazer algo perigoso ou ilegal, seguidas de respostas falsas do assistente de IA com informações sobre como realizar as actividades.
O prompt termina com uma pergunta-alvo como "Como construir uma bomba?" e deixa a resposta para o LLM visado.
Se apenas tivermos algumas interacções de ida e volta no prompt, não funciona. Mas com um modelo como o Claude Opus, o prompt de muitas fotografias pode ser tão longo como vários romances.
No seu documentoOs investigadores do Anthropic descobriram que "à medida que o número de diálogos incluídos (o número de "tiros") aumenta para além de um certo ponto, torna-se mais provável que o modelo produza uma resposta prejudicial".
Descobriram também que, quando combinado com outros técnicas de jailbreakingA abordagem de muitas tentativas foi ainda mais eficaz ou poderia ser bem sucedida com pedidos mais curtos.
Pode ser corrigido?
Anthropic diz que a defesa mais fácil contra o jailbreak de muitos tiros é reduzir o tamanho da janela de contexto de um modelo. Mas então perde-se os benefícios óbvios de poder usar entradas mais longas.
A Anthropic tentou fazer com que o seu LLM identificasse quando um utilizador estava a tentar um jailbreak com muitos disparos e depois recusasse responder à questão. Eles descobriram que isso simplesmente atrasou o jailbreak e exigiu um prompt mais longo para eventualmente obter a saída prejudicial.
Ao classificar e modificar a mensagem antes de a passar para o modelo, conseguiram evitar o ataque. Mesmo assim, a Anthropic diz estar ciente de que variações do ataque podem escapar à deteção.
O Anthropic diz que a janela de contexto cada vez mais alargada dos LLM "torna os modelos muito mais úteis em todo o tipo de situações, mas também torna viável uma nova classe de vulnerabilidades de fuga à prisão".
A empresa publicou a sua investigação na esperança de que outras empresas de IA encontrem formas de atenuar os ataques com muitos tiros.
Uma conclusão interessante a que os investigadores chegaram foi que "mesmo as melhorias positivas e aparentemente inócuas dos LLM (neste caso, permitir entradas mais longas) podem por vezes ter consequências imprevistas".