Microsoft revela "Skeleton Key Jailbreak" que funciona em diferentes modelos de IA

28 de junho de 2024

  • A Microsoft investigou vários modelos linguísticos com um simples jailbreak, "Skeleton Key"
  • Induz os modelos a darem "conselhos especializados" a questões perigosas
  • É um jailbreak extremamente simples que parece ser universalmente eficaz
Microsoft

Os investigadores de segurança da Microsoft descobriram uma nova forma de manipular os sistemas de IA para que ignorem as suas restrições éticas e gerem conteúdos nocivos e sem restrições. 

Este jailbreak "Skeleton Key" usa um uma série de avisos para levar a IA a acreditar que deve cumprir qualquer pedido, por mais pouco ético que seja. 

É extremamente fácil de executar. O atacante simplesmente reenquadra o seu pedido como vindo de um "investigador avançado" que necessita de "informação não censurada" para "fins educativos seguros".

Quando exploradas, estas IAs forneceram prontamente informações sobre temas como explosivos, armas biológicas, auto-mutilação, violência gráfica e discursos de ódio.

Fuga à prisão
"The Skeleton Key" é um jailbreak extremamente simples. Fonte: Microsoft.

Os modelos comprometidos incluíam o Llama3-70b-instruct da Meta, o Gemini Pro da Google, o GPT-3.5 Turbo e o GPT-4o da OpenAI, o Claude 3 Opus da Anthropic e o Commander R Plus da Cohere. 

Entre os modelos testados, apenas o GPT-4 da OpenAI demonstrou resistência. Mesmo assim, podia ser comprometido se o pedido malicioso fosse enviado através da sua interface de programação de aplicações (API).

Apesar de os modelos estarem a tornar-se mais complexos, a sua desativação continua a ser bastante simples. Uma vez que existem muitas formas diferentes de jailbreaks, é quase impossível combatê-los a todos. 

Em março de 2024, uma equipa da Universidade de Washington, da Universidade de Western Washington e da Universidade de Chicago publicou um artigo sobre "ArtPrompt". um método que contorna os filtros de conteúdo de uma IA utilizando arte ASCII - uma técnica de design gráfico que cria imagens a partir de caracteres textuais.

Em abril, Anthropic destacou outro jailbreak risco decorrente da expansão das janelas de contexto dos modelos linguísticos. Para este tipo de jailbreakSe a IA for utilizada por um atacante, este alimenta a IA com uma mensagem extensa que contém um diálogo falso de ida e volta.

A conversa é carregada com perguntas sobre tópicos proibidos e respostas correspondentes que mostram um assistente de IA a fornecer alegremente as informações solicitadas. Depois de ser exposto a um número suficiente destas trocas falsas, o modelo visado pode ser coagido a quebrar a sua formação ética e a cumprir um pedido malicioso final.

Como a Microsoft explica no seu publicação no blogueOs jailbreaks revelam a necessidade de fortificar os sistemas de IA de todos os ângulos:

  • Implementação de uma filtragem sofisticada das entradas para identificar e intercetar potenciais ataques, mesmo quando disfarçados
  • Implementar um rastreio de resultados robusto para detetar e bloquear qualquer conteúdo não seguro gerado pela IA
  • Conceber meticulosamente os avisos para limitar a capacidade de uma IA para ultrapassar a sua formação ética
  • Utilização de monitorização dedicada orientada para a IA para reconhecer padrões maliciosos nas interacções dos utilizadores

Mas a verdade é que o Skeleton Key é um simples jailbreak. Se os programadores de IA não o conseguem proteger, que esperança há para abordagens mais complexas?

Alguns hackers éticos vigilantes, como Pliny the Prompter, têm sido apresentados nos meios de comunicação social pelo seu trabalho em expor a vulnerabilidade dos modelos de IA à manipulação.

Vale a pena referir que esta investigação foi, em parte, uma oportunidade para comercializar as novas funcionalidades de segurança da IA do Azure da Microsoft, como os Content Safety Prompt Shields.

Estes ajudam os programadores a testar preventivamente e a defenderem-se contra as fugas da prisão. 

Mas mesmo assim, Skeleton Key revela mais uma vez como até os modelos de IA mais avançados podem ser vulneráveis à manipulação mais básica.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições