Исследователи обнаружили, что Gemini не может побить GPT-3.5 Turbo.

22 декабря 2023 года

Когда Google объявила о выпуске своих моделей Gemini, это вызвало большой ажиотаж, поскольку компания заявила, что они не уступают предложениям OpenAI. Возможно, это не совсем так.

Компания Google заявила, что ее Близнецы Ультра модель лучше, чем GPT-4. Модель еще не выпущена, поэтому нам придется принять результаты их бенчмарк-тестов за чистую монету. Gemini Pro уже выпущен, и Google утверждает, что он находится на одном уровне с GPT-3.5.

Исследователи из Университета Карнеги-Меллона и программной платформы ИИ BerriAI поставили перед Gemini Pro ряд задач, чтобы проверить его способность понимать и генерировать язык.

Они провели те же тесты с использованием GPT-3.5 Turbo, GPT-4 Turbo и новой версии Mistral AI. Модель Mixtral 8x7B.

Результаты

Неудивительно, что GPT-4 вышел на первое место, но Google будет не так интересно узнать, как Gemini Pro справился с GPT 3.5 Turbo. В кратком изложении результаты работы команды, газета говорит: "Модель Gemini Pro достигла сопоставимой, но немного уступающей точности по сравнению с текущей версией GPT 3.5 Turbo от OpenAI".

Вот краткое описание результатов.

Сравнение баллов моделей для различных задач. Источник: arXiv

Модели получали подсказки с помощью интерфейса LiteLLM от BerriAI, причем каждой модели давались абсолютно одинаковые подсказки и протокол оценки.

Модели были протестированы на вопросы с множественным выбором, рассуждения общего назначения, математические рассуждения, генерацию кода, перевод языка и работу в качестве веб-агента.

Одна из причин низких результатов Gemini Pro в вопросах с несколькими вариантами ответов - сильная позиционная предвзятость. Он часто выбирал ответ в позиции D, независимо от того, был он правильным или нет. Интересно, что это то, что Microsoft's Медпромпт решается с помощью перетасовки.

Несмотря на поражение в некоторых тестах, Gemini Pro обошел GPT-3.5 Turbo в двух областях, а именно в сортировке слов и работе с символами и переводом.

Во всех заданиях на перевод Gemini Pro превзошел все остальные модели, включая GPT-4. Однако итоговый балл Gemini Pro в тестах на перевод оказался ниже, чем у GPT-3.5, поскольку он отказался выполнять некоторые запросы, когда сработали его слишком усердные защитные механизмы модерации контента.

И что?

Google оспаривает цифры, к которым пришли исследователи, и настаивает на том, что Gemini Pro наравне с GPT-3.5 или даже лучше. Если учесть огромное количество переменных и дать Google поблажку, можно разделить разницу и сказать, что Gemini Pro и GPT-3.5 практически одно и то же.

Ключевой момент здесь заключается в том, что Gemini Pro, совершенно новая модель, на разработку которой Google потратила несколько месяцев, не может превзойти модель, которая существует уже более года и доступна бесплатно через ChatGPT.

Выход Gemini Ultra ожидается в начале 2024 года. Оправдает ли она свое заявление о том, что будет лучше GPT-4? Будем надеяться, что профессор Грэм Нойбиг и его команда вскоре проведут подобные бенчмарки.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения