O pica-pau pode resolver as alucinações multimodais do LLM

26 de outubro de 2023

Os Modelos Multimodais de Linguagem Ampla (MLLM), como o GPT-4V, são muito bons a analisar e a descrever imagens, mas por vezes têm alucinações e enganam-se. Uma nova abordagem chamada Woodpecker pode resolver isso.

Se pedirmos a um MLLM para descrever uma fotografia, ele consegue normalmente identificar os objectos e descrever a cena com precisão. Mas, tal como acontece com as respostas a pedidos de texto, o modelo faz por vezes suposições baseadas em objectos ou conceitos que aparecem frequentemente juntos.

Consequentemente, um MLLM pode descrever uma fotografia de uma fachada de uma loja e dizer que há pessoas na cena, quando na realidade não há nenhumas.

A correção de alucinações em LLMs baseados em texto está em curso, mas torna-se muito mais fácil quando o modelo está ligado à Internet. O LLM pode gerar uma resposta de texto a um pedido, verificar a sua veracidade com base em dados relevantes da Internet e auto-corrigir-se quando necessário.

Os cientistas do Laboratório YouTu da Tencent e da Universidade de Ciência e Tecnologia da China adoptaram esta abordagem e traduziram-na numa solução visual chamada Woodpecker.

Em termos simples, o Woodpecker constrói um conjunto de conhecimentos a partir da imagem e, em seguida, um LLM pode utilizá-lo como referência para corrigir a descrição inicial gerada pelo MLLM.

Segue-se uma breve descrição do seu funcionamento:

  1. Um LLM como o GPT-3.5 Turbo analisa a descrição gerada pelo MLLM e extrai conceitos-chave como objectos, quantidades e atributos. Por exemplo, na frase "O homem está a usar um chapéu preto", são extraídos os objectos "homem" e "chapéu".
  2. Um LLM é então levado a gerar perguntas relacionadas com estes conceitos, como "Há um homem na imagem?" ou "O que é que o homem tem vestido?".
  3. Estas perguntas são transmitidas como instruções a um modelo de resposta a perguntas visuais (VQA). O Grounding DINO efectua a deteção e contagem de objectos, enquanto o BLIP-2-FlanT5 VQA responde a perguntas relacionadas com atributos depois de analisar a imagem.
  4. Um LLM combina as respostas às perguntas numa base de conhecimento visual para a imagem.
  5. Um LLM utiliza este corpo de conhecimentos de referência para corrigir quaisquer alucinações na descrição original do MLLM e acrescenta pormenores que lhe escaparam.
Descrições incorrectas de MLLM e correcções de Woodpecker. Fonte: arXiv

Os investigadores deram à sua abordagem o nome de Pica-pau, em referência à forma como a ave apanha insectos das árvores.

Os resultados dos testes mostraram que o Woodpecker alcançou uma melhoria de precisão de 30,66% para o MiniGPT4 e 24,33% para os modelos mPLUG-Owl.

O carácter genérico dos modelos exigidos nesta abordagem significa que a abordagem Woodpecker pode ser facilmente integrada em vários MLLM.

Se a OpenAI integrar o Woodpecker no ChatGPT, poderemos assistir a uma melhoria significativa do já impressionante desempenho visual. Uma redução da alucinação MLLM poderia também melhorar a tomada de decisões automatizada por parte dos sistemas que utilizam descrições visuais como inputs.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições