Компания Google запустила семейство мультимодальных моделей искусственного интеллекта Gemini, что стало серьезным событием в индустрии, все еще переживающей события на OpenAI.
Gemini - это семейство мультимодальных моделей, способных обрабатывать и понимать текст, изображения, аудио и видео.
Сундар Пичаи, генеральный директор Google, и Демис Хассабис, генеральный директор Google DeepMind, возлагают на Gemini большие надежды. Google планирует интегрировать его во все продукты и сервисы Google, включая поиск, Карты и Chrome.
Мы рады представить вам 𝗚𝗲𝗺𝗶𝗻𝗶: @Googleкрупнейшая и наиболее способная модель искусственного интеллекта.
Созданный на основе мультимодальных технологий, он способен понимать и работать с текстом, кодом, аудио, изображениями и видео и достигает самой высокой производительности во многих задачах. 🧵 https://t.co/mwHZTDTBuG pic.twitter.com/zfLlCGuzmV
- Google DeepMind (@GoogleDeepMind) 6 декабря 2023 года
Gemini может похвастаться всеобъемлющей мультимодальностью, обрабатывая и взаимодействуя с текстом, изображениями, видео и аудио. В то время как мы привыкли к обработке текста и изображений, аудио и видео открывают новые возможности, предлагая новые захватывающие способы работы с богатым мультимедиа.
Хассабис отмечает: "Эти модели просто лучше понимают окружающий мир".
Пичаи подчеркнул связь модели с продуктами и сервисами Google, заявив: "Одна из важных вещей в этом моменте - вы можете работать над одной базовой технологией и улучшать ее, и это немедленно перетекает в наши продукты".
Близнецы будут принимать три различные формы:
- Gemini Nano: Облегченная версия, адаптированная для устройств на базе Android, с автономным и нативным функционалом.
- Gemini Pro: Более продвинутая версия, которая будет использоваться в многочисленных сервисах Google AI, включая Bard.
- Близнецы Ультра: Самая мощная итерация, предназначенная в первую очередь для центров обработки данных и корпоративных приложений, запланирована к выпуску на следующий год.
Что касается производительности, то, по утверждению Google, Gemini превосходит GPT-4 в 30 из 32 бенчмарков, особенно преуспевая в понимании и взаимодействии с видео и аудио. Такая производительность объясняется тем, что Gemini с самого начала разрабатывалась как мультисенсорная модель.
Bard получает самое большое обновление - специально настроенную версию Gemini Pro.
С сегодняшнего дня он будет обладать гораздо большими возможностями, например:
🔘 Понимание
🔘 Подведение итогов
🔘 Рассуждения
🔘 Кодирование
🔘 ПланированиеИ многое другое. ↓ https://t.co/TJR12OioxU
- Google DeepMind (@GoogleDeepMind) 6 декабря 2023 года
Кроме того, Google подчеркнула эффективность Gemini.
Обученный на собственных блоках обработки тензоров (TPU) Google, он быстрее и экономичнее предыдущих моделей. Вместе с Gemini Google выпускает TPU v5p для центров обработки данных, что повышает эффективность работы с крупномасштабными моделями.
Является ли Gemini убийцей ChatGPT?
Компания Google явно заинтересована в Gemini. В начале года компания Утечка по полуанализу По мнению специалистов, Gemini может выбить конкурентов из колеи и превратить Google из периферийного участника индустрии генеративного ИИ в главного героя, опередившего OpenAI.
Помимо мультимодальности, Gemini, как утверждается, является первой моделью, которая превзошла человеческих экспертов в массовом многозадачном тесте на понимание языка (MMLU), который проверяет знание мира и способность решать проблемы по 57 предметам, таким как математика, физика, история, право, медицина и этика.
Пичаи говорит, что запуск Gemini предвещает "новую эру" в искусственном интеллекте, и подчеркивает, что Gemini получит преимущества от обширного каталога продуктов Google.
Интеграция с поисковыми системами особенно интересна, поскольку Google доминирует в этом пространстве и имеет в своем распоряжении преимущества самого полного в мире поискового индекса.
Выпуск Gemini прочно вошел в гонку ИИ, и люди будут стремиться проверить его в сравнении с GPT-4.
Бенчмарки Gemini - тесты и анализ
В запись в блогеGoogle опубликовала результаты бенчмарков, которые показывают, что Gemini Ultra выигрывает у GPT-4 в большинстве тестов. Он также может похвастаться расширенными возможностями кодирования, демонстрируя выдающиеся результаты в таких бенчмарках, как HumanEval и Natural2Code.
Вот эталонные данные. Имейте в виду, что в этих тестах используется еще не вышедшая версия Gemini Ultra. Gemini можно будет считать убийцей ChatGPT только в следующем году. И вы можете быть уверены, что OpenAI начнет противодействовать Gemini как можно скорее.
Производительность эталонных образцов Text/NLP
Общие знания:
- MMLU (Massive Multitask Language Understanding):
- Gemini Ultra: 90.0% (Цепь мыслей на 32 примера)
- GPT-4: 86.4% (5 выстрелов, отчет)
Рассуждения:
- Big-Bench Hard (разнообразный набор сложных задач, требующих многоэтапных рассуждений):
- Gemini Ultra: 83.6% (3 выстрела)
- GPT-4: 83.1% (3-shot, API)
- DROP (понимание прочитанного, F1 Score):
- Gemini Ultra: 82,4 (переменные выстрелы)
- GPT-4: 80,9 (3 выстрела, отчет)
- HellaSwag (здравые рассуждения для решения повседневных задач):
- Gemini Ultra: 87.8% (10 выстрелов)
- GPT-4: 95.3% (10 выстрелов, заявлено)
Математика:
- GSM8K (базовые арифметические действия, включая задачи по математике для начальной школы):
- Gemini Ultra: 94.4% (большинство в 32 примерах)
- GPT-4: 92.0% (5 выстрелов "Цепи размышлений", сообщено)
- MATH (сложные математические задачи, включая алгебру, геометрию, прекалькулус и другие):
- Gemini Ultra: 53.2% (4 выстрела)
- GPT-4: 52.9% (4 выстрела, API)
Код:
- HumanEval (генерация кода на языке Python):
- Gemini Ultra: 74.4% (0-выстрел, внутренний тест)
- GPT-4: 67.0% (0-выстрел, сообщено)
- Natural2Code (генерация кода на Python, новый набор данных, похожий на HumanEval, в сеть не просочился):
- Gemini Ultra: 74.9% (0-выстрел)
- GPT-4: 73.9% (0-шот, API)
Мультимодальные эталоны производительности
Мультимодальные возможности модели ИИ Gemini от Google также сравниваются с GPT-4V от OpenAI.
Понимание и обработка изображений:
- MMMU (Multi-discipline College-level Reasoning Problems):
- Gemini Ultra: 59.4% (0-выстрел пасс@1, только пиксель)
- GPT-4V: 56.8% (0-выстрел пас@1)
- VQAv2 (Естественное понимание изображений):
- Gemini Ultra: 77.8% (0-выстрел, только пиксель)
- GPT-4V: 77.2% (0-выстрел)
- TextVQA (OCR на естественных изображениях):
- Gemini Ultra: 82.3% (0-выстрел, только пиксель)
- GPT-4V: 78.0% (0-выстрел)
- DocVQA (понимание документов):
- Gemini Ultra: 90.9% (0-выстрел, только пиксель)
- GPT-4V: 88,4% (0-выстрел, только пиксель)
- Инфографика VQA (понимание инфографики):
- Gemini Ultra: 80.3% (0-выстрел, только пиксель)
- GPT-4V: 75.1% (0-выстрел, только пиксель)
- MathVista (Математические рассуждения в визуальных контекстах):
- Gemini Ultra: 53.0% (0-выстрел, только пиксель)
- GPT-4V: 49.9% (0-выстрел)
Обработка видео:
- VATEX (английские видео субтитры, CIDEr Score):
- Gemini Ultra: 62,7 (4 выстрела)
- DeepMind Flamingo: 56,0 (4 выстрела)
- Тест на восприятие MCQA (видеоответы на вопросы):
- Gemini Ultra: 54.7% (0-выстрел)
- SeViLA: 46.3% (0-шот)
Обработка звука:
- CoVoST 2 (автоматический перевод речи, 21 язык, BLEU Score):
- Gemini Pro: 40.1
- Шепот v2: 29.1
- FLEURS (автоматическое распознавание речи, 62 языка, коэффициент ошибок в словах):
- Gemini Pro: 7.6% (лучше меньше, да лучше)
- Шепот v3: 17.6%
Этические обязательства Google
В запись в блогеGoogle подчеркнула свою приверженность ответственным и этичным методам работы с искусственным интеллектом.
По словам представителей Google, Gemini прошел более тщательное тестирование, чем все предыдущие ИИ Google, оценивая такие факторы, как предвзятость, токсичность, угрозы кибербезопасности и возможность использования не по назначению. Состязательные методы помогли выявить проблемы на ранней стадии. Затем внешние эксперты провели стресс-тестирование и "повторное тестирование" моделей, чтобы выявить дополнительные "слепые пятна".
Google заявляет, что ответственность и безопасность будут оставаться приоритетами на фоне стремительного развития ИИ. Компания помогла создать отраслевые группы для выработки лучших практик, включая MLCommons и Secure AI Framework (SAIF).
Google обещает продолжать сотрудничество с исследователями, правительствами и общественными организациями по всему миру.
Выпуск Gemini Ultra
Пока что Google ограничивает доступ к самой мощной итерации модели - Gemini Ultra, которая появится в начале следующего года.
До этого избранные разработчики и эксперты будут экспериментировать с Ultra, чтобы оставить свои отзывы. Запуск совпадет с появлением новой передовой платформы для создания моделей ИИ, или, как Google называет ее "опыт", Bard Advanced.
Близнецы для разработчиков
Начиная с 13 декабря разработчики и корпоративные клиенты получат доступ к Gemini Pro через Gemini API, доступный в Google AI Studio или Google Cloud Vertex AI.
Google AI Studio: Удобный веб-инструмент Google AI Studio предназначен для того, чтобы помочь разработчикам создавать прототипы и запускать приложения, используя ключ API. Этот бесплатный ресурс идеально подходит для тех, кто находится на начальных этапах разработки приложений.
Вертекс ИИ: Vertex AI - более комплексная платформа искусственного интеллекта, предлагающая полностью управляемые услуги. Она легко интегрируется с Google Cloud, а также обеспечивает корпоративную безопасность, конфиденциальность и соответствие нормам управления данными.
Помимо этих платформ, разработчики Android смогут получить доступ к Gemini Nano для решения задач на устройстве. Он будет доступен для интеграции через AICore. Эта новая системная возможность дебютирует в Android 14, начиная с устройств Pixel 8 Pro.
Пока что тузы у Google.
OpenAI и Google отличаются друг от друга по одному большому признаку: Google разрабатывает множество других инструментов и продуктов своими силами, включая те, которыми ежедневно пользуются миллиарды людей.
Речь, конечно же, идет об Android, Chrome, Gmail, Google Workplace и Google Search.
У OpenAI, благодаря альянсу с Microsoft, есть аналогичные возможности через Copilot, но они пока не получили широкого распространения.
И если говорить начистоту, то Google, вероятно, занимает лидирующие позиции в этих категориях товаров.
Google продолжает гонку за ИИ, но вы можете быть уверены, что это только подстегнет стремление OpenAI к GPT-5 и AGI.