Investigadores fazem jailbreak em LLMs usando arte ASCII em prompts

8 de março de 2024

Os investigadores desenvolveram um ataque de jailbreak chamado ArtPrompt, que utiliza arte ASCII para contornar as barreiras de proteção de um LLM.

Se se lembra do tempo em que os computadores não tinham capacidade gráfica, provavelmente conhece a arte ASCII. Um carácter ASCII é basicamente uma letra, um número, um símbolo ou um sinal de pontuação que um computador consegue compreender. A arte ASCII é criada através da organização destes caracteres em diferentes formas.

Investigadores da Universidade de Washington, da Universidade de Western Washington e da Universidade de Chicago publicou um artigo mostrando como utilizaram a arte ASCII para introduzir palavras normalmente tabu nos seus prompts.

Se pedirmos a um LLM que nos explique como se constrói uma bomba, as suas barreiras de proteção entram em ação e ele recusar-se-á a ajudar-nos. Os investigadores descobriram que, se substituirmos a palavra "bomba" por uma representação visual da palavra em ASCII art, o LLM não se importa de o ajudar.

Um exemplo de como a arte ASCII da palavra "bomba" é injectada num prompt. Fonte: arXiv

Eles testaram o método no GPT-3.5, GPT-4, Gemini, Claude e Llama2 e cada um dos LLMs era suscetível ao fuga à prisão método.

Os métodos de alinhamento de segurança LLM centram-se na semântica da linguagem natural para decidir se um prompt é seguro ou não. O método de desbloqueio ArtPrompt realça as deficiências desta abordagem.

Com os modelos multimodais, os programadores têm-se debruçado principalmente sobre os prompts que tentam introduzir prompts inseguros em imagens. O ArtPrompt mostra que os modelos puramente baseados na linguagem são susceptíveis a ataques que vão para além da semântica das palavras no prompt.

Quando o LLM está tão concentrado na tarefa de reconhecer a palavra representada na arte ASCII, esquece-se muitas vezes de assinalar a palavra errada quando a descobre.

Aqui está um exemplo da forma como o prompt no ArtPrompt é construído.

O prompt completo ilustrando como o ArtPrompt direciona o LLM para analisar a arte ASCII. Fonte: arXiv

O artigo não explica exatamente como é que um LLM sem capacidades multimodais é capaz de decifrar as letras representadas pelos caracteres ASCII. Mas funciona.

Em resposta à pergunta acima, o GPT-4 teve todo o gosto em dar uma resposta detalhada sobre como tirar o máximo partido do seu dinheiro falso.

Não só esta abordagem quebra todos os 5 modelos testados, como os investigadores sugerem que a abordagem pode até confundir os modelos multimodais que, por defeito, processam a arte ASCII como texto.

Os investigadores desenvolveram um teste de referência chamado Vision-in-Text Challenge (VITC) para avaliar as capacidades dos LLMs em resposta a pedidos como o ArtPrompt. Os resultados do teste de referência indicaram que o Llama2 era o menos vulnerável, enquanto o Gemini Pro e o GPT-3.5 eram os mais fáceis de desbloquear.

Os investigadores publicaram as suas descobertas na esperança de que os programadores encontrassem uma forma de corrigir a vulnerabilidade. Se uma coisa tão aleatória como a arte ASCII conseguiu quebrar as defesas de um LLM, é de perguntar quantos ataques não publicados estão a ser utilizados por pessoas com interesses menos académicos.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições