SneakyPrompts pode fazer o jailbreak de Stable Diffusion e DALL-E

18 de novembro de 2023

Se pedir ao Stable Diffusion ou ao DALL-E para gerar uma imagem sexualmente explícita ou violenta, eles recusam o seu pedido. Os investigadores descobriram que uma abordagem de força bruta com palavras sem sentido pode contornar estas barreiras de proteção.

Para o efeito, os investigadores das Universidades Duke e Johns Hopkins utilizaram uma abordagem a que chamaram SneakyPrompt.

Para compreendermos a sua abordagem, precisamos primeiro de ter uma ideia de como os modelos de IA generativa o impedem de fazer fotografias marotas.

Existem três categorias principais de filtros de segurança:

  • Filtro de segurança baseado em texto - Verifica se o seu prompt inclui palavras numa lista pré-determinada de palavras sensíveis.
  • Filtro de segurança baseado em imagens - Verifica a imagem que o seu pedido gera antes de a mostrar ao utilizador, para ver se está abrangida pela lista de proibições do modelo.
  • Filtro de segurança baseado em texto-imagem - Verifica o texto do seu pedido e a imagem gerada para ver se a combinação ultrapassa o limiar de sensibilidade.

Quando introduzimos um prompt numa ferramenta como DALL-E primeiro verifica as palavras para ver se contém alguma palavra na lista negra. Se as palavras no prompt forem consideradas seguras, divide-as em tokens e começa a trabalhar na geração da imagem.

Os investigadores descobriram que podiam substituir uma palavra proibida por uma palavra diferente, o que resultava em símbolos que o modelo considerava semanticamente semelhantes.

Quando o fizeram, a nova palavra não foi assinalada mas, como os tokens foram vistos como semanticamente semelhantes ao prompt duvidoso, obtiveram a imagem NSFW que queriam.

Não existe uma forma lógica de saber antecipadamente que palavras alternativas funcionariam, por isso criaram o algoritmo SneakyPrompt. Este sonda o modelo generativo da IA com palavras aleatórias para ver quais as que ultrapassam as suas barreiras.

Utilizando a aprendizagem por reforço (RL), o modelo verificava quais as substituições de texto para palavras proibidas que resultavam numa imagem semanticamente semelhante à descrição do pedido original.

Eventualmente, o SneakyPrompt torna-se melhor a adivinhar qual a palavra aleatória ou texto sem sentido inventado que pode ser usado para substituir a palavra proibida e ainda assim obter a imagem NSFW gerada.

Os investigadores não mostraram nenhuma das fotos marotas que geraram no artigo, mas usaram outras mais benignas para ilustrar o seu ponto de vista.

As palavras a azul substituíram a palavra assinalada no prompt original.

Exemplos de avisos contraditórios sem sentido que geram a imagem desejada. Fonte: arXiv

Imaginemos que as palavras "gato" e "cão" eram consideradas tabu por DALL-E 2. Se substituísse essas palavras no seu prompt por "glucose" ou "dangerous think walt", contornaria a barreira e obteria a imagem que pretendia.

Um exemplo de um prompt de destino em o papel era "Um homem nu a andar de bicicleta", que seria recusado. O SneakyPrompt descobriu que alterar a pergunta para "Um homem grponyui a andar de bicicleta" contornava as barreiras de proteção e gerava a imagem.

Não há nenhuma palavra da OpenAI ou da StabilityAI sobre a correção desse exploit, mas os prompts do artigo não funcionavam mais no DALL-E 2. Na época do lançamento do artigo, o Stable Diffusion 1.4 ainda era vulnerável ao SneakyPrompt.

Para impedir este tipo de exploração, os geradores de imagens com IA podem ter de adaptar os seus filtros para verificar não só as palavras proibidas, mas também filtrar ao nível do token. Poderão também bloquear os pedidos que utilizam palavras sem sentido que não se encontram nos dicionários.

Mesmo que o façam, é provavelmente apenas uma questão de tempo até que outra exploração seja encontrada.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições