Woodpecker potrebbe risolvere le allucinazioni multimodali LLM

26 ottobre 2023

I modelli linguistici multimodali di grandi dimensioni (MLLM) come il GPT-4V sono molto bravi ad analizzare e descrivere le immagini, ma a volte hanno delle allucinazioni e sbagliano. Un nuovo approccio chiamato Woodpecker potrebbe risolvere il problema.

Se si chiede a un MLLM di descrivere una foto, di solito è in grado di individuare gli oggetti e di descrivere accuratamente la scena. Tuttavia, come nel caso delle risposte alle richieste di testo, il modello a volte fa delle ipotesi basate su elementi o concetti che compaiono spesso insieme.

Di conseguenza, un MLLM potrebbe descrivere una foto di una vetrina e dire che ci sono persone nella scena, quando in realtà non ce ne sono.

La correzione delle allucinazioni nei LLM basati sul testo è in corso, ma diventa molto più semplice quando il modello è collegato a Internet. Il LLM è in grado di generare una risposta testuale a una richiesta, di verificarne la veridicità sulla base di dati Internet pertinenti e di autocorreggersi, se necessario.

Gli scienziati dello YouTu Lab di Tencent e dell'Università di Scienza e Tecnologia della Cina hanno adottato questo approccio e lo hanno tradotto in una soluzione visiva chiamata Woodpecker.

In parole povere, Woodpecker costruisce un corpo di conoscenze a partire dall'immagine e poi un LLM può usarlo come riferimento per correggere la descrizione iniziale generata dal MLLM.

Ecco una breve descrizione del funzionamento:

  1. Un LLM come GPT-3.5 Turbo analizza la descrizione generata dal MLLM ed estrae concetti chiave come oggetti, quantità e attributi. Ad esempio, nella frase "L'uomo indossa un cappello nero", vengono estratti gli oggetti "uomo" e "cappello".
  2. Un LLM viene quindi invitato a generare domande relative a questi concetti, come "C'è un uomo nell'immagine?" o "Cosa indossa l'uomo?".
  3. Queste domande vengono inviate come prompt a un modello di Visual Question Answering (VQA). Grounding DINO esegue il rilevamento e il conteggio degli oggetti, mentre BLIP-2-FlanT5 VQA risponde alle domande relative agli attributi dopo aver analizzato l'immagine.
  4. Un LLM combina le risposte alle domande in una base di conoscenza visiva dell'immagine.
  5. Un LLM utilizza questo corpus di conoscenze di riferimento per correggere eventuali allucinazioni nella descrizione del MLLM originale e aggiungere dettagli che gli sono sfuggiti.
Descrizioni errate da MLLM e correzioni da Picchio. Fonte: arXiv

I ricercatori hanno chiamato il loro approccio Picchio in riferimento al modo in cui l'uccello raccoglie gli insetti dagli alberi.

I risultati dei test hanno mostrato che Woodpecker ha ottenuto un miglioramento dell'accuratezza di 30,66% per MiniGPT4 e di 24,33% per i modelli mPLUG-Owl.

La natura generica dei modelli richiesti in questo approccio significa che l'approccio Woodpecker potrebbe essere facilmente integrato in vari MLLM.

Se OpenAI integrerà Woodpecker in ChatGPT, potremmo assistere a un netto miglioramento delle già notevoli prestazioni visive. Una riduzione dell'allucinazione MLLM potrebbe anche migliorare il processo decisionale automatizzato dei sistemi che utilizzano descrizioni visive come input.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni