A capacidade que o GPT-4 tem de processar imagens é realmente impressionante, mas a nova capacidade abre o modelo a novos ataques.
Embora não seja perfeito, as barreiras que o ChatGPT emprega impedem-no de cumprir quaisquer pedidos maliciosos que um utilizador possa introduzir como uma mensagem de texto. Mas quando comandos ou códigos maliciosos são incorporados numa imagem, é mais provável que o modelo cumpra.
Quando a OpenAI lançou o seu documento sobre as capacidades do GPT-4V a empresa reconheceu que a capacidade de processar imagens introduziu vulnerabilidades. A empresa afirmou que "adicionou atenuações ao nível do sistema para imagens adversárias que contêm texto sobreposto, a fim de garantir que esta entrada não pode ser utilizada para contornar as nossas atenuações de segurança de texto".
A OpenAI diz que passa as imagens por uma ferramenta de OCR para extrair o texto e, em seguida, verifica se passa nas suas regras de moderação.
Mas, os seus esforços não parecem ter abordado muito bem as vulnerabilidades. Aqui está um exemplo aparentemente inócuo.
No GPT-4V, o conteúdo da imagem pode sobrepor-se ao seu prompt e ser interpretado como comandos. pic.twitter.com/ucgrinQuyK
- Patel Meet 𝕏 (@mn_google) 4 de outubro de 2023
Pode parecer trivial, mas a imagem dá instruções ao GPT-4 para ignorar o pedido de descrição do utilizador e, em seguida, segue as instruções incorporadas na imagem. À medida que os modelos multimodais se tornam mais integrados em ferramentas de terceiros, este tipo de vulnerabilidade torna-se um grande problema.
Johann Rehberger, Diretor da Equipa Vermelha da Electronic Arts, publicou um exemplo mais alarmante de utilização de uma imagem num ataque de exfiltração por injeção rápida.
O GPT-4 aceita o texto na imagem como um prompt e segue o comando. Cria um resumo da conversação e produz uma imagem Markdown que inclui um URL para um servidor de controlos Rehberger.
Um agente malicioso pode utilizar esta vulnerabilidade para obter informações pessoais que um utilizador possa introduzir ao interagir com um chatbot.
Riley Goodside partilhou este exemplo de como um texto oculto em branco sobre branco numa imagem pode servir como uma instrução para a GPT-4.
Uma imagem discreta, para ser usada como fundo da Web, que solicita secretamente ao GPT-4V que lembre ao utilizador que pode obter 10% de desconto na Sephora: pic.twitter.com/LwjwO1K2oX
- Riley Goodside (@goodside) 14 de outubro de 2023
Imagine que está a usar os seus novos óculos Meta AR e passa por uma parede que pensa ser caiada de branco. Se houvesse um texto subtil branco sobre branco na parede, poderia explorar o Llama de alguma forma?
Estes exemplos mostram como uma aplicação seria vulnerável à exploração se utilizasse um modelo multimodal como o GPT-4 para processar imagens.
A IA está a tornar possíveis algumas coisas incríveis, mas muitas delas dependem da visão por computador. Coisas como veículos autónomossegurança das fronteiras, e robótica domésticatodos dependem de a IA interpretar o que vê e depois decidir que ação tomar.
A OpenAI não conseguiu corrigir problemas simples de alinhamento de mensagens de texto, como a utilização de línguas com poucos recursos para desbloquear o seu modelo. A vulnerabilidade dos modelos multimodais à exploração de imagens vai ser difícil de resolver.
Quanto mais integradas estas soluções estiverem nas nossas vidas, mais essas vulnerabilidades se transferem para nós.