Когда Google объявила о выпуске своих моделей Gemini, это вызвало большой ажиотаж, поскольку компания заявила, что они не уступают предложениям OpenAI. Возможно, это не совсем так.
Компания Google заявила, что ее Близнецы Ультра модель лучше, чем GPT-4. Модель еще не выпущена, поэтому нам придется принять результаты их бенчмарк-тестов за чистую монету. Gemini Pro уже выпущен, и Google утверждает, что он находится на одном уровне с GPT-3.5.
Исследователи из Университета Карнеги-Меллона и программной платформы ИИ BerriAI поставили перед Gemini Pro ряд задач, чтобы проверить его способность понимать и генерировать язык.
Они провели те же тесты с использованием GPT-3.5 Turbo, GPT-4 Turbo и новой версии Mistral AI. Модель Mixtral 8x7B.
Gemini от Google недавно заявила о себе как о главном конкуренте GPT от OpenAI. Захватывающе! Но мы задались вопросом:
Насколько хороши Близнецы на самом деле?
В CMU мы провели беспристрастное, глубокое и воспроизводимое исследование, сравнив Gemini, GPT и Mixtral.
Бумага: https://t.co/S3T7ediQLa
🧵 pic.twitter.com/NmEOeDd8pI- Грэм Нойбиг (@gneubig) 19 декабря 2023 года
Результаты
Неудивительно, что GPT-4 вышел на первое место, но Google будет не так интересно узнать, как Gemini Pro справился с GPT 3.5 Turbo. В кратком изложении результаты работы команды, газета говорит: "Модель Gemini Pro достигла сопоставимой, но немного уступающей точности по сравнению с текущей версией GPT 3.5 Turbo от OpenAI".
Вот краткое описание результатов.
Модели получали подсказки с помощью интерфейса LiteLLM от BerriAI, причем каждой модели давались абсолютно одинаковые подсказки и протокол оценки.
Модели были протестированы на вопросы с множественным выбором, рассуждения общего назначения, математические рассуждения, генерацию кода, перевод языка и работу в качестве веб-агента.
Одна из причин низких результатов Gemini Pro в вопросах с несколькими вариантами ответов - сильная позиционная предвзятость. Он часто выбирал ответ в позиции D, независимо от того, был он правильным или нет. Интересно, что это то, что Microsoft's Медпромпт решается с помощью перетасовки.
Несмотря на поражение в некоторых тестах, Gemini Pro обошел GPT-3.5 Turbo в двух областях, а именно в сортировке слов и работе с символами и переводом.
Во всех заданиях на перевод Gemini Pro превзошел все остальные модели, включая GPT-4. Однако итоговый балл Gemini Pro в тестах на перевод оказался ниже, чем у GPT-3.5, поскольку он отказался выполнять некоторые запросы, когда сработали его слишком усердные защитные механизмы модерации контента.
И что?
Google оспаривает цифры, к которым пришли исследователи, и настаивает на том, что Gemini Pro наравне с GPT-3.5 или даже лучше. Если учесть огромное количество переменных и дать Google поблажку, можно разделить разницу и сказать, что Gemini Pro и GPT-3.5 практически одно и то же.
Ключевой момент здесь заключается в том, что Gemini Pro, совершенно новая модель, на разработку которой Google потратила несколько месяцев, не может превзойти модель, которая существует уже более года и доступна бесплатно через ChatGPT.
Выход Gemini Ultra ожидается в начале 2024 года. Оправдает ли она свое заявление о том, что будет лучше GPT-4? Будем надеяться, что профессор Грэм Нойбиг и его команда вскоре проведут подобные бенчмарки.