Reflection 70B - это самый мощный LLM с открытым исходным кодом или мошенничество?

9 сентября 2024 года

  • Мэтт Шумер утверждает, что его Reflection 70B LLM - самая мощная модель с открытым исходным кодом.
  • "Reflection-Tuning" останавливает галлюцинации Reflection 70B и обеспечивает исключительные результаты бенчмарка
  • Некоторые первые пользователи говорят, что модель является мошенничеством и просто оберткой для существующих моделей.

Основатель и генеральный директор HyperWrite Мэтт Шумер (Matt Shumer) объявил, что его новая модель, Reflection 70B, использует простой трюк для решения проблемы галлюцинаций LLM и показывает впечатляющие результаты в бенчмарках, которые превосходят более крупные и даже закрытые модели, такие как GPT-4o.

Шумер сотрудничал с поставщиком синтетических данных, компанией Glaive, чтобы создать новую модель, которая основана на модели Llama 3.1-70B Instruct от Meta.

В объявлении о запуске на Hugging Face Шумер сказал. "Reflection Llama-3.1 70B - (на данный момент) лучший в мире LLM с открытым исходным кодом, обученный с помощью новой техники под названием Reflection-Tuning, которая учит LLM обнаруживать ошибки в своих рассуждениях и корректировать курс".

Если Шумер найдет способ решить проблему галлюцинаций ИИ, то это будет просто невероятно. Бенчмарки, которыми он поделился, говорят о том, что Reflection 70B значительно опережает другие модели.

Результаты бенчмарка Reflection 70B предоставлены Мэттом Шумером. Источник: Обнимающееся лицо

Название модели указывает на ее способность к самокоррекции в процессе умозаключения. Шумер не раскрывает подробностей, но объясняет, что модель обдумывает свой первоначальный ответ на подсказку и выдает его только после того, как убедится в его правильности.

Шумер говорит, что версия 405B Reflection уже в работе и, когда ее представят на следующей неделе, она поразит воображение других моделей, включая GPT-4o.

Является ли Reflection 70B мошенничеством?

Неужели все это слишком хорошо, чтобы быть правдой? Reflection 70B доступен для загрузки на сайте Huging Face, но первые тестеры не смогли повторить впечатляющую производительность, которую показали бенчмарки Шумера.

Сайт Площадка для размышлений позволяет опробовать модель, но сообщает, что из-за высокого спроса демонстрация временно не работает. Подсказки "Count 'r's in strawberry" и "9.11 vs 9.9" намекают на то, что модель правильно отвечает на эти непростые вопросы. Но некоторые пользователи утверждают, что Reflection была специально настроена на ответы на эти вопросы.

Игровая площадка Reflection пока не работает. Источник: Игровая площадка "Отражение

Некоторые пользователи поставили под сомнение впечатляющие бенчмарки. Особенно подозрительно выглядел GSM8K у 99%.

Некоторые из истинных ответов в наборе данных GSM8K на самом деле неверны. Другими словами, единственным способом набрать больше 99% в GSM8K было дать такие же неправильные ответы на эти задачи.

После некоторого тестирования пользователи утверждают, что Reflection на самом деле хуже, чем Llama 3.1, и что на самом деле это была просто Llama 3 с примененной настройкой LoRA.

Пользовательское тестирование показало, что Reflection 70B работает хуже, чем модели, которые, как утверждает Шумер, его превосходят. Источник: X

В ответ на негативные отзывы Шумер опубликовал на сайте X пояснение: "Быстрое обновление - мы заново загрузили веса, но проблема осталась. Мы только что начали тренировки заново, чтобы устранить все возможные проблемы. Скоро все будет готово".

Шумер объяснил, что в API произошел сбой и что они работают над этим. Тем временем он предоставил доступ к секретному, приватному API, чтобы сомневающиеся могли попробовать Reflection, пока они работают над исправлением.

И вот тут-то колеса, похоже, отваливаются, поскольку при внимательном рассмотрении оказывается, что API - это всего лишь обертка Claude 3.5 Sonnet.

Последующее тестирование показало, что API возвращает результаты от Llama и GPT-4o. Шумер настаивает на точности первоначальных результатов и на том, что они работают над исправлением загружаемой модели.

Не слишком ли преждевременно скептики называют Шумера мошенником? Может быть, с релизом просто плохо обошлись, и Reflection 70B действительно является революционной моделью с открытым исходным кодом. А может быть, это еще один пример шумихи вокруг ИИ, направленной на привлечение венчурного капитала от инвесторов, ищущих следующую большую вещь в ИИ.

Нам придется подождать день или два, чтобы увидеть, как все это будет происходить.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения