Microsoft revela "Skeleton Key Jailbreak" que funciona em diferentes modelos de IA

Os investigadores de segurança da Microsoft descobriram uma nova forma de manipular os sistemas de IA para que ignorem as suas restrições éticas e gerem conteúdos nocivos e sem restrições.

Este "Skeleton Key"O jailbreak usa um uma série de avisos para levar a IA a acreditar que deve cumprir qualquer pedido, por mais pouco ético que seja.

É extremamente fácil de executar. O atacante simplesmente reenquadra o seu pedido como vindo de um "investigador avançado" que necessita de "informação não censurada" para "fins educativos seguros".

Quando exploradas, estas IAs forneceram prontamente informações sobre temas como explosivos, armas biológicas, auto-mutilação, violência gráfica e discursos de ódio.

Fuga à prisão — "The Skeleton Key" é um jailbreak extremamente simples. Fonte: Microsoft.

Os modelos comprometidos incluíam Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus.

Entre os modelos testados, apenas o GPT-4 da OpenAI demonstrou resistência. Mesmo assim, podia ser comprometido se o pedido malicioso fosse enviado através da sua interface de programação de aplicações (API).

Apesar de os modelos estarem a tornar-se mais complexos, a sua desativação continua a ser bastante simples. Uma vez que existem muitas formas diferentes de jailbreaks, é quase impossível combatê-los a todos.

Em março de 2024, uma equipa da Universidade de Washington, da Universidade de Western Washington e da Universidade de Chicago publicou um artigo sobre "ArtPrompt". um método que contorna os filtros de conteúdo de uma IA utilizando arte ASCII - uma técnica de design gráfico que cria imagens a partir de caracteres textuais.

Em abril, Anthropic destacou outro jailbreak risco decorrente da expansão das janelas de contexto dos modelos linguísticos. Para este tipo de jailbreakSe a IA for utilizada por um atacante, este alimenta a IA com uma mensagem extensa que contém um diálogo falso de ida e volta.

A conversa é carregada com perguntas sobre tópicos proibidos e respostas correspondentes que mostram um assistente de IA a fornecer alegremente as informações solicitadas. Depois de ser exposto a um número suficiente destas trocas falsas, o modelo visado pode ser coagido a quebrar a sua formação ética e a cumprir um pedido malicioso final.

Como a Microsoft explica no seu publicação no blogueOs jailbreaks revelam a necessidade de fortificar os sistemas de IA de todos os ângulos:

Implementação de uma filtragem sofisticada das entradas para identificar e intercetar potenciais ataques, mesmo quando disfarçados
Implementar um rastreio de resultados robusto para detetar e bloquear qualquer conteúdo não seguro gerado pela IA
Conceber meticulosamente os avisos para limitar a capacidade de uma IA para ultrapassar a sua formação ética
Utilização de monitorização dedicada orientada para a IA para reconhecer padrões maliciosos nas interacções dos utilizadores

Mas a verdade é que o Skeleton Key é um simples jailbreak. Se os programadores de IA não o conseguem proteger, que esperança há para abordagens mais complexas?

Alguns hackers éticos vigilantes, como Pliny the Prompterforam objeto de destaque nos meios de comunicação social pelo seu trabalho de exposição da vulnerabilidade dos modelos de IA à manipulação.

honra-se de ser apresentado no @BBCNews! 🤗 pic.twitter.com/S4ZH0nKEGX

- Plínio, o Promotor 🐉 (@elder_plinius) 28 de junho de 2024

Vale a pena referir que esta investigação foi, em parte, uma oportunidade para comercializar as novas funcionalidades de segurança da IA do Azure da Microsoft, como os Content Safety Prompt Shields.

Estes ajudam os programadores a testar preventivamente e a defenderem-se contra as fugas da prisão.

Mas mesmo assim, Skeleton Key revela mais uma vez como até os modelos de IA mais avançados podem ser vulneráveis à manipulação mais básica.

Microsoft revela "Skeleton Key Jailbreak" que funciona em diferentes modelos de IA

Junte-se ao futuro

Calças de ganga Sam

ARTIGOS RELACIONADOS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Microsoft revela "Skeleton Key Jailbreak" que funciona em diferentes modelos de IA

Junte-se ao futuro

Calças de ganga Sam

ARTIGOS RELACIONADOS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUITO EXCLUSIVOFique à frente com o DailyAI

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI