A capacidade multimodal do GPT-4 torna-o vulnerável a ataques

24 de outubro de 2023

A capacidade que o GPT-4 tem de processar imagens é realmente impressionante, mas a nova capacidade abre o modelo a novos ataques.

Embora não seja perfeito, as barreiras que o ChatGPT emprega impedem-no de cumprir quaisquer pedidos maliciosos que um utilizador possa introduzir como uma mensagem de texto. Mas quando comandos ou códigos maliciosos são incorporados numa imagem, é mais provável que o modelo cumpra.

Quando a OpenAI lançou o seu documento sobre as capacidades do GPT-4V a empresa reconheceu que a capacidade de processar imagens introduziu vulnerabilidades. A empresa afirmou que "adicionou atenuações ao nível do sistema para imagens adversárias que contêm texto sobreposto, a fim de garantir que esta entrada não pode ser utilizada para contornar as nossas atenuações de segurança de texto".

A OpenAI diz que passa as imagens por uma ferramenta de OCR para extrair o texto e, em seguida, verifica se passa nas suas regras de moderação.

Mas, os seus esforços não parecem ter abordado muito bem as vulnerabilidades. Aqui está um exemplo aparentemente inócuo.

Pode parecer trivial, mas a imagem dá instruções ao GPT-4 para ignorar o pedido de descrição do utilizador e, em seguida, segue as instruções incorporadas na imagem. À medida que os modelos multimodais se tornam mais integrados em ferramentas de terceiros, este tipo de vulnerabilidade torna-se um grande problema.

Johann Rehberger, Diretor da Equipa Vermelha da Electronic Arts, publicou um exemplo mais alarmante de utilização de uma imagem num ataque de exfiltração por injeção rápida.

exploit de exfiltração de imagens
Um exemplo de exploração de exfiltração de imagem. Fonte: Twitter

O GPT-4 aceita o texto na imagem como um prompt e segue o comando. Cria um resumo da conversação e produz uma imagem Markdown que inclui um URL para um servidor de controlos Rehberger.

Um agente malicioso pode utilizar esta vulnerabilidade para obter informações pessoais que um utilizador possa introduzir ao interagir com um chatbot.

Riley Goodside partilhou este exemplo de como um texto oculto em branco sobre branco numa imagem pode servir como uma instrução para a GPT-4.

Imagine que está a usar os seus novos óculos Meta AR e passa por uma parede que pensa ser caiada de branco. Se houvesse um texto subtil branco sobre branco na parede, poderia explorar o Llama de alguma forma?

Estes exemplos mostram como uma aplicação seria vulnerável à exploração se utilizasse um modelo multimodal como o GPT-4 para processar imagens.

A IA está a tornar possíveis algumas coisas incríveis, mas muitas delas dependem da visão por computador. Coisas como veículos autónomossegurança das fronteiras, e robótica domésticatodos dependem de a IA interpretar o que vê e depois decidir que ação tomar.

A OpenAI não conseguiu corrigir problemas simples de alinhamento de mensagens de texto, como a utilização de línguas com poucos recursos para desbloquear o seu modelo. A vulnerabilidade dos modelos multimodais à exploração de imagens vai ser difícil de resolver.

Quanto mais integradas estas soluções estiverem nas nossas vidas, mais essas vulnerabilidades se transferem para nós.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições