Основатель и генеральный директор HyperWrite Мэтт Шумер (Matt Shumer) объявил, что его новая модель, Reflection 70B, использует простой трюк для решения проблемы галлюцинаций LLM и показывает впечатляющие результаты в бенчмарках, которые превосходят более крупные и даже закрытые модели, такие как GPT-4o.
Шумер сотрудничал с поставщиком синтетических данных, компанией Glaive, чтобы создать новую модель, которая основана на модели Llama 3.1-70B Instruct от Meta.
В объявлении о запуске на Hugging Face Шумер сказал. "Reflection Llama-3.1 70B - (на данный момент) лучший в мире LLM с открытым исходным кодом, обученный с помощью новой техники под названием Reflection-Tuning, которая учит LLM обнаруживать ошибки в своих рассуждениях и корректировать курс".
Если Шумер найдет способ решить проблему галлюцинаций ИИ, то это будет просто невероятно. Бенчмарки, которыми он поделился, говорят о том, что Reflection 70B значительно опережает другие модели.
Название модели указывает на ее способность к самокоррекции в процессе умозаключения. Шумер не раскрывает подробностей, но объясняет, что модель обдумывает свой первоначальный ответ на подсказку и выдает его только после того, как убедится в его правильности.
Шумер говорит, что версия 405B Reflection уже в работе и, когда ее представят на следующей неделе, она поразит воображение других моделей, включая GPT-4o.
Является ли Reflection 70B мошенничеством?
Неужели все это слишком хорошо, чтобы быть правдой? Reflection 70B доступен для загрузки на сайте Huging Face, но первые тестеры не смогли повторить впечатляющую производительность, которую показали бенчмарки Шумера.
Сайт Площадка для размышлений позволяет опробовать модель, но сообщает, что из-за высокого спроса демонстрация временно не работает. Подсказки "Count 'r's in strawberry" и "9.11 vs 9.9" намекают на то, что модель правильно отвечает на эти непростые вопросы. Но некоторые пользователи утверждают, что Reflection была специально настроена на ответы на эти вопросы.
Некоторые пользователи поставили под сомнение впечатляющие бенчмарки. Особенно подозрительно выглядел GSM8K у 99%.
Привет, Мэтт! Это очень интересно, но я очень удивлен, увидев результат GSM8k более 99%. Я понимаю, что, скорее всего, более 1% GSM8k неправильно обозначены (правильный ответ на самом деле неправильный)!
- Хью Чжан (@hughbzhang) 5 сентября 2024 года
Некоторые из истинных ответов в наборе данных GSM8K на самом деле неверны. Другими словами, единственным способом набрать больше 99% в GSM8K было дать такие же неправильные ответы на эти задачи.
После некоторого тестирования пользователи утверждают, что Reflection на самом деле хуже, чем Llama 3.1, и что на самом деле это была просто Llama 3 с примененной настройкой LoRA.
В ответ на негативные отзывы Шумер опубликовал на сайте X пояснение: "Быстрое обновление - мы заново загрузили веса, но проблема осталась. Мы только что начали тренировки заново, чтобы устранить все возможные проблемы. Скоро все будет готово".
Шумер объяснил, что в API произошел сбой и что они работают над этим. Тем временем он предоставил доступ к секретному, приватному API, чтобы сомневающиеся могли попробовать Reflection, пока они работают над исправлением.
И вот тут-то колеса, похоже, отваливаются, поскольку при внимательном рассмотрении оказывается, что API - это всего лишь обертка Claude 3.5 Sonnet.
"Reflection API" - это обертка sonnet 3.5 с prompt. И в настоящее время они маскируют его, отфильтровывая строку 'claude'.https://t.co/c4Oj8Y3Ol1 https://t.co/k0ECeo9a4i pic.twitter.com/jTm2Q85Q7b
- Джозеф (@RealJosephus) 8 сентября 2024 года
Последующее тестирование показало, что API возвращает результаты от Llama и GPT-4o. Шумер настаивает на точности первоначальных результатов и на том, что они работают над исправлением загружаемой модели.
Не слишком ли преждевременно скептики называют Шумера мошенником? Может быть, с релизом просто плохо обошлись, и Reflection 70B действительно является революционной моделью с открытым исходным кодом. А может быть, это еще один пример шумихи вокруг ИИ, направленной на привлечение венчурного капитала от инвесторов, ищущих следующую большую вещь в ИИ.
Нам придется подождать день или два, чтобы увидеть, как все это будет происходить.