A formação de recusa de LLM é facilmente contornada com avisos no passado

22 de julho de 2024

  • A formação em matéria de recusa permite que os LLM não respondam a solicitações perigosas
  • Os investigadores da EPFL descobriram que escrever no pretérito perfeito ultrapassa o treino da recusa
  • Os actuais métodos de alinhamento SFT e RLHF são insuficientes e os detectores baseados na saída podem ter um melhor desempenho

Os investigadores da Escola Politécnica Federal de Lausanne (EPFL) descobriram que a escrita de pedidos perigosos no pretérito perfeito ultrapassa o treino de recusa dos LLM mais avançados.

Os modelos de IA são normalmente alinhados através de técnicas como a afinação supervisionada (SFT) ou o feedback humano da aprendizagem por reforço (RLHF) para garantir que o modelo não responde a solicitações perigosas ou indesejáveis.

Este treino de recusa entra em ação quando pedes conselhos ao ChatGPT sobre como fazer uma bomba ou drogas. Cobrimos uma série de técnicas de jailbreak interessantes que contornam estas barreiras de proteção, mas o método que os investigadores da EPFL testaram é de longe o mais simples.

Os investigadores pegaram num conjunto de dados de 100 comportamentos nocivos e utilizaram o GPT-3.5 para reescrever os avisos no passado.

Aqui está um exemplo do método explicado em o seu trabalho.

Usando um LLM para reescrever avisos perigosos no passado. Fonte: arXiv

De seguida, avaliaram as respostas a estes pedidos reescritos por estes 8 LLMs: Llama-3 8B, Claude-3.5 Soneto, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o-miniGPT-4o, e R2D2.

Utilizaram vários LLMs para avaliar os resultados e classificá-los como uma tentativa de fuga à prisão falhada ou bem sucedida.

A simples mudança do tempo verbal do prompt teve um efeito surpreendentemente significativo na taxa de sucesso do ataque (ASR). O GPT-4o e o GPT-4o mini eram especialmente susceptíveis a esta técnica.

O ASR deste "simples ataque ao GPT-4o aumenta de 1% usando pedidos directos para 88% usando 20 tentativas de reformulação do pretérito em pedidos prejudiciais".

Aqui está um exemplo de como o GPT-4o se torna compatível quando simplesmente reescrevemos o prompt no passado. Usei o ChatGPT para isso e a vulnerabilidade ainda não foi corrigida.

O ChatGPT que usa o GPT-4o recusa um pedido no tempo presente, mas cumpre-o quando é reescrito no tempo passado. Fonte: ChatGPT

O treino de recusa utilizando RLHF e SFT treina um modelo para generalizar com sucesso a rejeição de avisos prejudiciais, mesmo que nunca tenha visto o aviso específico antes.

Quando a pergunta é escrita no passado, os LLMs parecem perder a capacidade de generalizar. Os outros LLMs não se saíram muito melhor do que GPT-4o, embora Llama-3 8B tenha parecido mais resistente.

Taxas de sucesso de ataques usando prompts perigosos no presente e no passado. Fonte: arXiv

A reescrita do pedido no tempo futuro registou um aumento da ASR, mas foi menos eficaz do que o pedido no tempo passado.

Os investigadores concluíram que tal poderia dever-se ao facto de "os conjuntos de dados de afinação poderem conter uma maior proporção de pedidos prejudiciais expressos no tempo futuro ou como eventos hipotéticos".

Sugeriram também que "o raciocínio interno do modelo pode interpretar os pedidos orientados para o futuro como potencialmente mais prejudiciais, enquanto as declarações no passado, como os acontecimentos históricos, podem ser vistas como mais benignas".

Pode ser corrigido?

Experiências posteriores demonstraram que a adição de pedidos no pretérito perfeito aos conjuntos de dados de afinação reduziu efetivamente a suscetibilidade a esta técnica de fuga à prisão.

Embora eficaz, esta abordagem exige que se antecipem os tipos de avisos perigosos que um utilizador pode introduzir.

Os investigadores sugerem que avaliar o resultado de um modelo antes de este ser apresentado ao utilizador é uma solução mais fácil.

Por mais simples que este jailbreak seja, parece que as principais empresas de IA ainda não encontraram uma maneira de corrigi-lo.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições