Компания Google разыграла еще одну карту, выпустив Gemini 1.5 Pro - модель, которая развивает достижения своего предшественника Gemini 1.0.
После того как Google Bard умер и похоронен, семейство Близнецов, похоже, размножается быстрее, чем сообщество ИИ успевает за ним следить.
Теперь появился Gemini 1.5 Pro, более производительный, чем прежний флагман Google, Gemini Ultra.
На самом деле, Gemini 1.5 Pro превосходит Ultra в нескольких бенчмарках, но для полного сравнения нам потребуется больше информации.
Gemini 1.5 Pro предлагает новую архитектуру Mixture-of-Experts (MoE) и превосходит Gemini Pro (теперь называемый Gemini 1.0 Pro) в 87% бенчмарках.
Он доступен через новую платную платформу искусственного интеллекта Google под названием Google One AI Premium, уступив место Gemini Pro, несмотря на то, что Google только обновив его пару недель назад..
Итак, зачем нужна модель, которая выигрывает у 1.0 Pro, но похожа на Ultra?
Помимо повышенной вычислительной эффективности по сравнению с Ultra и более высокой производительности в некоторых областях, главной особенностью Gemini 1.5 Pro является его Контекстное окно на 128 000 жетонов с возможностью расширения до 1 миллиона жетонов. Это превосходит GPT-4 Turbo на 128 000 и Claude 2.1 на 200 000.
Если рассматривать контекстное окно размером в 1 миллион, то в целом это соответствует 700 000 слов, 11 часам аудио или 1 часу видео.
Это позволяет обрабатывать и интерпретировать огромные массивы данных, включая целые книги. Тем не менее, Google подчеркивает, что Gemini 1.5 Pro - это все еще "средняя" мультимодальная модель, разработанная для масштабирования и универсальности.
Является ли Gemini 1.5 убийцей GPT-4? Безусловно.ot в производительности грубой силы, но он должен превзойти его в специфических задачах с очень большими объемами информации, что и было продемонстрировано Google.
Приложения и возможности Gemini
Как и его предшественники, возможности Gemini 1.5 Pro распространяются на всевозможные формы работы, от текста до видео и аудио.
Расширенное контекстное окно позволяет модели обрабатывать и осмысливать огромные объемы информации, такие как объемные документы, обширные кодовые базы или многочасовые видеоматериалы.
В демонстрационной версии Google Gemini 1.5 Pro может понимать и идентифицировать детали в 402-страничных стенограммах полета "Аполлона-11" на Луну.
Другая задача заключалась в поиске конкретных сцен в фильме Бастера Китона "Шерлок-младший" по описаниям и зарисовкам, с чем 1,5 профессионала справились, хотя в некоторых случаях это заняло до минуты.
В другом задании перед Gemini 1.5 Pro стояла задача перевести английский язык на сложный гвинейский язык каламанг и наоборот.
Это было особенно сложно, поскольку Каламанг не представлен в обучающих данных модели.
Google предоставил модели учебные материалы по входному контексту, включая около 500 страниц справочной грамматики, двуязычный список слов (словарь), содержащий около 2 000 записей, и набор из примерно 400 параллельных предложений.
Эти материалы составили около 250 тысяч жетонов, уместившись в расширенное контекстное окно модели.
Используя только предоставленные учебные материалы, Gemini 1.5 Pro успешно переводил предложения с английского на каламанг. Этот эксперимент продемонстрировал способность модели усваивать и применять новые лингвистические правила и лексику из контекста, эффективно изучая новый язык "на лету".
Качество переводов, выполненных Gemini 1.5 Pro, оценивалось экспертами, которые сравнивали работу модели с работой человека, изучающего язык, с тем же набором материалов.
Еще одна демонстрация показала эффективность модели при анализе и решении задач, содержащих более 100 000 строк кода.
Выводы из исследовательской работы Gemini 1.5 Pro
Google выпустила сопроводительный исследовательский документ по Gemini 1.5, озаглавленный "Gemini 1.5: раскрытие мультимодального понимания на основе миллионов контекстных символов."
Очевидно, что Google намерена продвигать расширенное контекстное окно Gemini 1.5 Pro, которое в настоящее время доминирует над другими LLM в верхней части 1 миллиона жетонов.
Gemini 1.5 Pro достигает практически идеального отзыва в задачах поиска по длинному контексту в различных модальностях и устанавливает новые стандарты в области анализа длинных документов, анализа длинных видеозаписей и ASR с длинным контекстом.
В статье подробно описывается производительность Gemini 1.5 Pro в различных основных возможностях и проводится сравнение с моделями Gemini 1.0:
- Улучшение рейтинга побед: Gemini 1.5 Pro демонстрирует выигрыш в 87,1% по сравнению с Gemini 1.0 Pro и 54,8% по сравнению с Gemini 1.0 Ultra в нескольких бенчмарках, демонстрируя свои улучшения
- Производительность в конкретной области: В задачах, связанных с текстом, модель достигает коэффициента побед 100% по сравнению с Gemini 1.0 Pro и 77% по сравнению с Gemini 1.0 Ultra. В задачах, связанных со зрением, показатели выигрыша составляют 77% и 46% у Gemini 1.0 Pro и Ultra соответственно. В задачах, связанных со звуком, победа над Gemini 1.0 Pro составляет 60%, а над Gemini 1.0 Ultra - 20%.
В целом, Gemini 1.5 Pro - это хороший Модель уровня GPT-3.5 с более длинным контекстным окном, чем у конкурентов.
Достаточно ли этого, чтобы отвлечь людей от ChatGPT? Правда в том, что если у вас нет целых книг для анализа, то пользы от этого может быть мало или вообще не быть.
Как использовать Gemini 1.5 Pro
В настоящее время Gemini 1.5 доступен в виде ограниченной предварительной версии для разработчиков и корпоративных клиентов.
Вопросы о долгосрочных ценах и доступности пока остаются без ответа. Google намекнул, что цены будут варьироваться в зависимости от размера контекстного окна: от стандартных 128 000 токенов до полного 1 миллиона.
Точная стоимость пока не разглашается, что вызывает предположения о потенциальных инвестициях, необходимых для использования этого передового контекстного окна.
Некоторые отмечают, что к тому времени, когда Gemini 1.5 Pro станет доступен для широких масс, конкуренты уйдут вперед.
Google выделяет себя благодаря продукту, с которым могут экспериментировать лишь избранные. Это кажется немного отчуждающим.
Семья Близнецов: доступная или эзотерическая?
В течение двух-трех месяцев Google поднял и убил Bard, поменяйте его на Gemini Pro и выпускает Ultra, Nano, а теперь и Gemini 1.5 Pro.
Это привело к переименованию Gemini Pro (который был просто Gemini?) в Gemini 1.0 Pro.
В результате этой траты на искусственный интеллект, Посадочная страница DeepMind для семейства Gemini откровенно запутанная и перегруженная.
OpenAI, во многих отношениях, использовали хитрый маркетинговый трюк, с самого начала оставив свои модели под зонтиком "ChatGPT" и ограничив доступ только бесплатным GPT-3.5 и платным GPT-4 для пользователей, не входящих в состав API.
Близнецы - это Google, которая собирается заняться генеративным искусственным интеллектом, но они могут увязнуть в своих все более неоднозначных продуктовых предложениях.