DeepMind разработала SAFE, ИИ-агент для проверки фактов в LLM

2 апреля 2024 года

  • Исследователи DeepMind разработали поисковую систему оценки фактов (Search-Augmented Factuality Evaluator, SAFE) для проверки фактов в LLM
  • SAFE разбивает длинные ответы LLM на отдельные факты, а затем проверяет их в Google
  • SAFE можно использовать для оценки фактологичности LLM в длинной форме

Исследователи из DeepMind и Стэнфордского университета разработали ИИ-агент, который проверяет фактологию LLM и позволяет проводить сравнительный анализ фактологичности ИИ-моделей.

Даже самые лучшие модели искусственного интеллекта по-прежнему склонны галлюцинировать иногда. Если вы попросите ChatGPT предоставить вам факты по теме, то чем длиннее будет ответ, тем больше вероятность того, что в нем окажутся неправдивые факты.

Какие модели более точны в фактах, чем другие, при создании длинных ответов? Сложно сказать, потому что до сих пор у нас не было эталона, измеряющего фактичность длинных ответов LLM.

Сначала DeepMind использовала GPT-4 для создания LongFact - набора из 2280 подсказок в виде вопросов, относящихся к 38 темам. Эти подсказки вызывают у тестируемого LLM развернутые ответы.

Затем они создали ИИ-агент, использующий GPT-3.5-turbo, чтобы с помощью Google проверить, насколько фактичны ответы, сгенерированные LLM. Они назвали этот метод Search-Augmented Factuality Evaluator (SAFE).

SAFE сначала разбивает длинный ответ LLM на отдельные факты. Затем он отправляет поисковые запросы в Google Search и определяет правдивость факта на основе информации, полученной в результатах поиска.

Вот пример из научная статья.

Задание на поиск фактов позволяет получить развернутый ответ. Ответ разбивается на отдельные факты, пересматривается, чтобы быть самостоятельным, проверяется на релевантность и проверяется с помощью Google Search. Источник: arXiv

Исследователи утверждают, что SAFE достигает "сверхчеловеческой производительности" по сравнению с человеческими аннотаторами, выполняющими проверку фактов.

SAFE согласился с 72% человеческих аннотаций, а там, где его мнение расходилось с человеческим, он оказался прав в 76% случаев. Кроме того, эта система оказалась в 20 раз дешевле, чем краудсорсинговые человеческие аннотаторы. Таким образом, LLM лучше и дешевле проверяют факты, чем люди.

Качество ответа испытуемых LLM оценивалось по количеству фактоидов в ответе, а также по тому, насколько фактоидами были отдельные факты.

Используемая ими метрика (F1@K) оценивает предпочтительное для человека "идеальное" количество фактов в ответе. В эталонных тестах в качестве медианы для K использовалось 64, а в качестве максимума - 178.

Проще говоря, F1@K - это показатель "Предоставил ли ответ мне столько фактов, сколько я хотел?" в сочетании с "Сколько из этих фактов оказались правдивыми?".

Какой LLM является наиболее актуальным?

Исследователи использовали LongFact, чтобы предложить 13 LLM из семейств Gemini, GPT, Claude и PaLM-2. Затем они использовали SAFE для оценки фактичности их ответов.

GPT-4-Turbo возглавляет список самых фактографичных моделей при генерации длинных ответов. За ней следуют Gemini-Ultra и PaLM-2-L-IT-RLHF. Результаты показали, что большие LLM более фактографичны, чем маленькие.

Вычисления F1@K, вероятно, порадуют специалистов по обработке данных, но для простоты мы приводим результаты эталонных расчетов, которые показывают, насколько точна каждая модель при возвращении ответов средней длины и более длинных ответов на вопросы.

Длинные показатели фактографичности 13 LLM с K = 64 (медианное количество фактов среди всех ответов модели) и K = 178 (максимальное количество фактов среди всех ответов модели). Источник: arXiv

SAFE - это дешевый и эффективный способ количественной оценки фактологичности длинных форм LLM. Он быстрее и дешевле, чем люди, проверяет факты, но все равно зависит от правдивости информации, которую Google выдает в результатах поиска.

DeepMind выпустила SAFE для публичного использования и предположила, что он может помочь улучшить фактологичность LLM за счет лучшего предварительного обучения и тонкой настройки. Она также может позволить LLM проверять свои факты перед тем, как представить результат пользователю.

OpenAI будет рад увидеть, что исследование Google показало, что GPT-4 побеждает Gemini в еще одном бенчмарке.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения