Дятел может решить проблему мультимодальных галлюцинаций LLM

26 октября 2023 года

Мультимодальные модели большого языка (MLLM), такие как GPT-4V, действительно хороши в анализе и описании изображений, но иногда они галлюцинируют и ошибаются. Новый подход под названием Woodpecker может это исправить.

Если вы попросите МЛМ описать фотографию, она, как правило, сможет выделить объекты и точно описать сцену. Но, как и в случае с ответами на текстовые подсказки, модель иногда делает предположения, основываясь на предметах или понятиях, которые часто встречаются вместе.

В результате МЛМ может описать фотографию витрины магазина и сказать, что на ней есть люди, хотя на самом деле их нет.

Работа по устранению галлюцинаций в текстовых ЛЛМ продолжается, но становится намного проще, когда модель подключена к интернету. ЛЛМ может генерировать текстовый ответ на запрос, проверять его на достоверность по соответствующим интернет-данным и при необходимости самокорректироваться.

Ученые из лаборатории YouTu Lab компании Tencent и Китайского университета науки и технологий взяли этот подход на вооружение и воплотили его в визуальном решении под названием Woodpecker.

Проще говоря, Woodpecker создает совокупность знаний на основе изображения, а затем LLM может использовать ее в качестве ссылки для корректировки первоначального описания, созданного MLLM.

Вот краткое описание того, как это работает:

  1. LLM типа GPT-3.5 Turbo анализирует описание, сгенерированное MLLM, и извлекает ключевые понятия, такие как объекты, количества и атрибуты. Например, в предложении "На мужчине надета черная шляпа" извлекаются объекты "мужчина" и "шляпа".
  2. Затем LLM предлагается сгенерировать вопросы, связанные с этими понятиями, например "Есть ли на изображении человек?" или "Во что одет человек?".
  3. Эти вопросы поступают в качестве подсказок в модель визуального ответа на вопросы (VQA). Grounding DINO выполняет обнаружение и подсчет объектов, а BLIP-2-FlanT5 VQA отвечает на вопросы, связанные с атрибутами, после анализа изображения.
  4. LLM объединяет ответы на вопросы в визуальную базу знаний об изображении.
  5. LLM использует этот справочный свод знаний, чтобы исправить любые галлюцинации в оригинальном описании MLLM и добавить детали, которые он упустил.
Неправильные описания от MLLM и исправления от Woodpecker. Источник: arXiv

Исследователи назвали свой подход Woodpecker, ссылаясь на то, как эта птица собирает жуков с деревьев.

Результаты тестирования показали, что Woodpecker добился повышения точности на 30,66% для MiniGPT4 и на 24,33% для моделей mPLUG-Owl.

Общий характер моделей, требуемых в данном подходе, означает, что подход Woodpecker может быть легко интегрирован в различные MLLM.

Если OpenAI интегрирует Woodpecker в ChatGPT, то мы сможем увидеть заметное улучшение и без того впечатляющих визуальных характеристик. Уменьшение галлюцинаций MLLM также может улучшить автоматизированное принятие решений системами, использующими визуальные описания в качестве входных данных.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения