Исследователи обнаружили, что Gemini не может побить даже GPT-3.5 Turbo

Когда Google объявила о выпуске своих моделей Gemini, это вызвало большой ажиотаж, поскольку компания заявила, что они не уступают предложениям OpenAI. Возможно, это не совсем так.

Компания Google заявила, что ее Близнецы Ультра модель лучше, чем GPT-4. Модель еще не выпущена, поэтому нам придется принять результаты их бенчмарк-тестов за чистую монету. Gemini Pro уже выпущен, и Google утверждает, что он находится на одном уровне с GPT-3.5.

Исследователи из Университета Карнеги-Меллона и программной платформы ИИ BerriAI поставили перед Gemini Pro ряд задач, чтобы проверить его способность понимать и генерировать язык.

Они провели те же тесты с использованием GPT-3.5 Turbo, GPT-4 Turbo и новой версии Mistral AI. Модель Mixtral 8x7B.

Gemini от Google недавно заявила о себе как о главном конкуренте GPT от OpenAI. Захватывающе! Но мы задались вопросом:

Насколько хороши Близнецы на самом деле?

В CMU мы провели беспристрастное, глубокое и воспроизводимое исследование, сравнив Gemini, GPT и Mixtral.

Бумага: https://t.co/S3T7ediQLa
🧵 pic.twitter.com/NmEOeDd8pI

- Грэм Нойбиг (@gneubig) 19 декабря 2023 года

Результаты

Неудивительно, что GPT-4 вышел на первое место, но Google будет не так интересно узнать, как Gemini Pro справился с GPT 3.5 Turbo. В кратком изложении результаты работы команды, газета говорит: "Модель Gemini Pro достигла сопоставимой, но немного уступающей точности по сравнению с текущей версией GPT 3.5 Turbo от OpenAI".

Вот краткое описание результатов.

Сравнение баллов моделей для различных задач. Источник: arXiv

Модели получали подсказки с помощью интерфейса LiteLLM от BerriAI, причем каждой модели давались абсолютно одинаковые подсказки и протокол оценки.

Модели были протестированы на вопросы с множественным выбором, рассуждения общего назначения, математические рассуждения, генерацию кода, перевод языка и работу в качестве веб-агента.

Одна из причин низких результатов Gemini Pro в вопросах с несколькими вариантами ответов - сильная позиционная предвзятость. Он часто выбирал ответ в позиции D, независимо от того, был он правильным или нет. Интересно, что это то, что Microsoft's Медпромпт решается с помощью перетасовки.

Несмотря на поражение в некоторых тестах, Gemini Pro обошел GPT-3.5 Turbo в двух областях, а именно в сортировке слов и работе с символами и переводом.

Во всех заданиях на перевод Gemini Pro превзошел все остальные модели, включая GPT-4. Однако итоговый балл Gemini Pro в тестах на перевод оказался ниже, чем у GPT-3.5, поскольку он отказался выполнять некоторые запросы, когда сработали его слишком усердные защитные механизмы модерации контента.

И что?

Google оспаривает цифры, к которым пришли исследователи, и настаивает на том, что Gemini Pro наравне с GPT-3.5 или даже лучше. Если учесть огромное количество переменных и дать Google поблажку, можно разделить разницу и сказать, что Gemini Pro и GPT-3.5 практически одно и то же.

Ключевой момент здесь заключается в том, что Gemini Pro, совершенно новая модель, на разработку которой Google потратила несколько месяцев, не может превзойти модель, которая существует уже более года и доступна бесплатно через ChatGPT.

Выход Gemini Ultra ожидается в начале 2024 года. Оправдает ли она свое заявление о том, что будет лучше GPT-4? Будем надеяться, что профессор Грэм Нойбиг и его команда вскоре проведут подобные бенчмарки.

Исследователи обнаружили, что Gemini не может побить GPT-3.5 Turbo.

Результаты

И что?

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Исследователи обнаружили, что Gemini не может побить GPT-3.5 Turbo.

Результаты

И что?

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI