Ожидается, что Google выпустит Gemini, свой новый LLM, в декабре, и, как ожидается, он будет превосходить GPT-4 на некоторое расстояние.
Gemini - это фундаментальная модель, созданная с нуля командами Google DeepMind и Brain AI. Это первая по-настоящему мультимодальная модель, то есть она может обрабатывать текст, изображения и видео. GPT-4 по этому показателю удалось получить только 2 балла из 3.
Много шумихи вокруг производительности Gemini основано на отчет Semi Analysis в котором смело утверждается, что "Gemini разбивает GPT-4 в 5 раз".
Показатель 5-кратной производительности относится к вычислительной мощности, используемой для обучения Gemini. По оценкам, она примерно в 5 раз больше, чем та, что использовалась для обучения GPT-4. Вычислительная мощность - интересный критерий, но большее количество FLOPS не означает автоматически лучшую модель.
В отсутствие официальных данных о производительности Сэм Олтман поспешил написать в Твиттере саркастический комментарий по поводу этих заявлений.
невероятно, что google заставил этого парня из semianalysis опубликовать график их внутреннего маркетинга/рекрутинга lol
- Сэм Альтман (@sama) 29 августа 2023 года
Элон Маск ответил на свой твит вопросом: "Цифры неверны?", но ответа от Альтмана не получил.
В Gemini более 430 миллиардов параметров, в то время как в GPT-4 - 200 миллиардов. Для обучения модели такого размера потребовалась бы огромная вычислительная мощность, а у Google ее предостаточно.
В отчете Semi Analysis используются понятия "богатый GPU" и "бедный GPU" для сравнения Google с ИИ-стартапами, в распоряжении которых значительно меньше вычислительных мощностей.
Сравнение вполне справедливо, даже если использовать термин "GPU" применительно к Google немного некорректно. Реальное преимущество Google в обучении своих моделей - это собственные блоки обработки тензоров (Tensor Processing Units или TPU).
В то время как все остальные пытаются купить графические процессоры Nvidia, Google со своими чипами TPU вырвалась вперед в гонке обучения моделей. Gemini обучался на чипах TPUv5 от Google, которые могут одновременно работать с 16 384 чипами.
Близнецы и AlphaGo
Часть секретного соуса в Gemini - это то, как Google интегрировала возможности AlphaGo. AlphaGo - это программа, разработанная компанией DeepMind, которая обыграла чемпиона мира по игре Го.
Стратегическое принятие решений и динамическое понимание контекста, которые привели к этой победе, как ожидается, дадут Gemini большое преимущество над способностью GPT-4 к рассуждениям.
AlphaGo стал лучше в игре Go, играя против самого себя. Gemini может использовать подобную самоигру, чтобы учиться не только на взаимодействии с пользователем, но и на собственном опыте.
Данные - это реальная разница
Вероятно, самое значительное преимущество Google заключается в огромном объеме данных, имеющихся в ее распоряжении для обучения Gemini.
OpenAI хватается за любые данные из Интернета, но теперь борется с неизбежные судебные иски и видит, как его GPTBot все чаще блокируется.
Вероятно, Google не обошлось без рискованных действий, но она владеет огромным количеством собственных данных. Неясно, что вошло в обучающий набор данных Gemini, но он вполне может включать данные из YouTube, Google Books, Google Scholar и массивного поискового индекса.
Надеемся, нам не придется ждать декабря, чтобы провести реальные бенчмарки и узнать, действительно ли Gemini лучше GPT-4. Может быть, OpenAI задерживает выпуск GPT-5 как раз настолько, чтобы превзойти Gemini после его запуска?