DeepMind разработала SAFE, ИИ-агента для проверки фактов о LLM

Исследователи из DeepMind и Стэнфордского университета разработали ИИ-агент, который проверяет фактологию LLM и позволяет проводить сравнительный анализ фактологичности ИИ-моделей.

Даже самые лучшие модели искусственного интеллекта по-прежнему склонны галлюцинировать иногда. Если вы попросите ChatGPT предоставить вам факты по теме, то чем длиннее будет ответ, тем больше вероятность того, что в нем окажутся неправдивые факты.

Какие модели более точны в фактах, чем другие, при создании длинных ответов? Сложно сказать, потому что до сих пор у нас не было эталона, измеряющего фактичность длинных ответов LLM.

Сначала DeepMind использовала GPT-4 для создания LongFact - набора из 2280 подсказок в виде вопросов, относящихся к 38 темам. Эти подсказки вызывают у тестируемого LLM развернутые ответы.

Затем они создали ИИ-агент, использующий GPT-3.5-turbo, чтобы с помощью Google проверить, насколько фактичны ответы, сгенерированные LLM. Они назвали этот метод Search-Augmented Factuality Evaluator (SAFE).

SAFE сначала разбивает длинный ответ LLM на отдельные факты. Затем он отправляет поисковые запросы в Google Search и определяет правдивость факта на основе информации, полученной в результатах поиска.

Вот пример из научная статья.

Задание на поиск фактов позволяет получить развернутый ответ. Ответ разбивается на отдельные факты, пересматривается, чтобы быть самостоятельным, проверяется на релевантность и проверяется с помощью Google Search. Источник: arXiv

Исследователи утверждают, что SAFE достигает "сверхчеловеческой производительности" по сравнению с человеческими аннотаторами, выполняющими проверку фактов.

SAFE согласился с 72% человеческих аннотаций, а там, где его мнение расходилось с человеческим, он оказался прав в 76% случаев. Кроме того, эта система оказалась в 20 раз дешевле, чем краудсорсинговые человеческие аннотаторы. Таким образом, LLM лучше и дешевле проверяют факты, чем люди.

Качество ответа испытуемых LLM оценивалось по количеству фактоидов в ответе, а также по тому, насколько фактоидами были отдельные факты.

Используемая ими метрика (F1@K) оценивает предпочтительное для человека "идеальное" количество фактов в ответе. В эталонных тестах в качестве медианы для K использовалось 64, а в качестве максимума - 178.

Проще говоря, F1@K - это показатель "Предоставил ли ответ мне столько фактов, сколько я хотел?" в сочетании с "Сколько из этих фактов оказались правдивыми?".

Какой LLM является наиболее актуальным?

Исследователи использовали LongFact, чтобы предложить 13 LLM из семейств Gemini, GPT, Claude и PaLM-2. Затем они использовали SAFE для оценки фактичности их ответов.

GPT-4-Turbo возглавляет список самых фактографичных моделей при генерации длинных ответов. За ней следуют Gemini-Ultra и PaLM-2-L-IT-RLHF. Результаты показали, что большие LLM более фактографичны, чем маленькие.

Вычисления F1@K, вероятно, порадуют специалистов по обработке данных, но для простоты мы приводим результаты эталонных расчетов, которые показывают, насколько точна каждая модель при возвращении ответов средней длины и более длинных ответов на вопросы.

Длинные показатели фактографичности 13 LLM с K = 64 (медианное количество фактов среди всех ответов модели) и K = 178 (максимальное количество фактов среди всех ответов модели). Источник: arXiv

SAFE - это дешевый и эффективный способ количественной оценки фактологичности длинных форм LLM. Он быстрее и дешевле, чем люди, проверяет факты, но все равно зависит от правдивости информации, которую Google выдает в результатах поиска.

DeepMind выпустила SAFE для публичного использования и предположила, что он может помочь улучшить фактологичность LLM за счет лучшего предварительного обучения и тонкой настройки. Она также может позволить LLM проверять свои факты перед тем, как представить результат пользователю.

OpenAI будет рад увидеть, что исследование Google показало, что GPT-4 побеждает Gemini в еще одном бенчмарке.

DeepMind разработала SAFE, ИИ-агент для проверки фактов в LLM

Какой LLM является наиболее актуальным?

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

DeepMind разработала SAFE, ИИ-агент для проверки фактов в LLM

Какой LLM является наиболее актуальным?

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI