Google представила революционное семейство мультимодальных моделей Gemini

Компания Google запустила семейство мультимодальных моделей искусственного интеллекта Gemini, что стало серьезным событием в индустрии, все еще переживающей события на OpenAI.

Gemini - это семейство мультимодальных моделей, способных обрабатывать и понимать текст, изображения, аудио и видео.

Сундар Пичаи, генеральный директор Google, и Демис Хассабис, генеральный директор Google DeepMind, возлагают на Gemini большие надежды. Google планирует интегрировать его во все продукты и сервисы Google, включая поиск, Карты и Chrome.

Мы рады представить вам 𝗚𝗲𝗺𝗶𝗻𝗶: @Googleкрупнейшая и наиболее способная модель искусственного интеллекта.

Созданный на основе мультимодальных технологий, он способен понимать и работать с текстом, кодом, аудио, изображениями и видео и достигает самой высокой производительности во многих задачах. 🧵 https://t.co/mwHZTDTBuG pic.twitter.com/zfLlCGuzmV

- Google DeepMind (@GoogleDeepMind) 6 декабря 2023 года

Gemini может похвастаться всеобъемлющей мультимодальностью, обрабатывая и взаимодействуя с текстом, изображениями, видео и аудио. В то время как мы привыкли к обработке текста и изображений, аудио и видео открывают новые возможности, предлагая новые захватывающие способы работы с богатым мультимедиа.

Хассабис отмечает: "Эти модели просто лучше понимают окружающий мир".

Пичаи подчеркнул связь модели с продуктами и сервисами Google, заявив: "Одна из важных вещей в этом моменте - вы можете работать над одной базовой технологией и улучшать ее, и это немедленно перетекает в наши продукты".

Близнецы будут принимать три различные формы:

Gemini Nano: Облегченная версия, адаптированная для устройств на базе Android, с автономным и нативным функционалом.
Gemini Pro: Более продвинутая версия, которая будет использоваться в многочисленных сервисах Google AI, включая Bard.
Близнецы Ультра: Самая мощная итерация, предназначенная в первую очередь для центров обработки данных и корпоративных приложений, запланирована к выпуску на следующий год.

Что касается производительности, то, по утверждению Google, Gemini превосходит GPT-4 в 30 из 32 бенчмарков, особенно преуспевая в понимании и взаимодействии с видео и аудио. Такая производительность объясняется тем, что Gemini с самого начала разрабатывалась как мультисенсорная модель.

Bard получает самое большое обновление - специально настроенную версию Gemini Pro.

С сегодняшнего дня он будет обладать гораздо большими возможностями, например:
🔘 Понимание
🔘 Подведение итогов
🔘 Рассуждения
🔘 Кодирование
🔘 Планирование

И многое другое. ↓ https://t.co/TJR12OioxU

- Google DeepMind (@GoogleDeepMind) 6 декабря 2023 года

Кроме того, Google подчеркнула эффективность Gemini.

Обученный на собственных блоках обработки тензоров (TPU) Google, он быстрее и экономичнее предыдущих моделей. Вместе с Gemini Google выпускает TPU v5p для центров обработки данных, что повышает эффективность работы с крупномасштабными моделями.

Является ли Gemini убийцей ChatGPT?

Компания Google явно заинтересована в Gemini. В начале года компания Утечка по полуанализу По мнению специалистов, Gemini может выбить конкурентов из колеи и превратить Google из периферийного участника индустрии генеративного ИИ в главного героя, опередившего OpenAI.

Помимо мультимодальности, Gemini, как утверждается, является первой моделью, которая превзошла человеческих экспертов в массовом многозадачном тесте на понимание языка (MMLU), который проверяет знание мира и способность решать проблемы по 57 предметам, таким как математика, физика, история, право, медицина и этика.

Пичаи говорит, что запуск Gemini предвещает "новую эру" в искусственном интеллекте, и подчеркивает, что Gemini получит преимущества от обширного каталога продуктов Google.

Интеграция с поисковыми системами особенно интересна, поскольку Google доминирует в этом пространстве и имеет в своем распоряжении преимущества самого полного в мире поискового индекса.

Выпуск Gemini прочно вошел в гонку ИИ, и люди будут стремиться проверить его в сравнении с GPT-4.

Бенчмарки Gemini - тесты и анализ

В запись в блогеGoogle опубликовала результаты бенчмарков, которые показывают, что Gemini Ultra выигрывает у GPT-4 в большинстве тестов. Он также может похвастаться расширенными возможностями кодирования, демонстрируя выдающиеся результаты в таких бенчмарках, как HumanEval и Natural2Code.

Вот эталонные данные. Имейте в виду, что в этих тестах используется еще не вышедшая версия Gemini Ultra. Gemini можно будет считать убийцей ChatGPT только в следующем году. И вы можете быть уверены, что OpenAI начнет противодействовать Gemini как можно скорее.

Производительность эталонных образцов Text/NLP

Общие знания:

MMLU (Massive Multitask Language Understanding):
- Gemini Ultra: 90.0% (Цепь мыслей на 32 примера)
- GPT-4: 86.4% (5 выстрелов, отчет)

Рассуждения:

Big-Bench Hard (разнообразный набор сложных задач, требующих многоэтапных рассуждений):
- Gemini Ultra: 83.6% (3 выстрела)
- GPT-4: 83.1% (3-shot, API)
DROP (понимание прочитанного, F1 Score):
- Gemini Ultra: 82,4 (переменные выстрелы)
- GPT-4: 80,9 (3 выстрела, отчет)
HellaSwag (здравые рассуждения для решения повседневных задач):
- Gemini Ultra: 87.8% (10 выстрелов)
- GPT-4: 95.3% (10 выстрелов, заявлено)

Математика:

GSM8K (базовые арифметические действия, включая задачи по математике для начальной школы):
- Gemini Ultra: 94.4% (большинство в 32 примерах)
- GPT-4: 92.0% (5 выстрелов "Цепи размышлений", сообщено)
MATH (сложные математические задачи, включая алгебру, геометрию, прекалькулус и другие):
- Gemini Ultra: 53.2% (4 выстрела)
- GPT-4: 52.9% (4 выстрела, API)

Код:

HumanEval (генерация кода на языке Python):
- Gemini Ultra: 74.4% (0-выстрел, внутренний тест)
- GPT-4: 67.0% (0-выстрел, сообщено)
Natural2Code (генерация кода на Python, новый набор данных, похожий на HumanEval, в сеть не просочился):
- Gemini Ultra: 74.9% (0-выстрел)
- GPT-4: 73.9% (0-шот, API)

Мультимодальные эталоны производительности

Мультимодальные возможности модели ИИ Gemini от Google также сравниваются с GPT-4V от OpenAI.

Понимание и обработка изображений:

MMMU (Multi-discipline College-level Reasoning Problems):
- Gemini Ultra: 59.4% (0-выстрел пасс@1, только пиксель)
- GPT-4V: 56.8% (0-выстрел пас@1)
VQAv2 (Естественное понимание изображений):
- Gemini Ultra: 77.8% (0-выстрел, только пиксель)
- GPT-4V: 77.2% (0-выстрел)
TextVQA (OCR на естественных изображениях):
- Gemini Ultra: 82.3% (0-выстрел, только пиксель)
- GPT-4V: 78.0% (0-выстрел)
DocVQA (понимание документов):
- Gemini Ultra: 90.9% (0-выстрел, только пиксель)
- GPT-4V: 88,4% (0-выстрел, только пиксель)
Инфографика VQA (понимание инфографики):
- Gemini Ultra: 80.3% (0-выстрел, только пиксель)
- GPT-4V: 75.1% (0-выстрел, только пиксель)
MathVista (Математические рассуждения в визуальных контекстах):
- Gemini Ultra: 53.0% (0-выстрел, только пиксель)
- GPT-4V: 49.9% (0-выстрел)

Обработка видео:

VATEX (английские видео субтитры, CIDEr Score):
- Gemini Ultra: 62,7 (4 выстрела)
- DeepMind Flamingo: 56,0 (4 выстрела)
Тест на восприятие MCQA (видеоответы на вопросы):
- Gemini Ultra: 54.7% (0-выстрел)
- SeViLA: 46.3% (0-шот)

Обработка звука:

CoVoST 2 (автоматический перевод речи, 21 язык, BLEU Score):
- Gemini Pro: 40.1
- Шепот v2: 29.1
FLEURS (автоматическое распознавание речи, 62 языка, коэффициент ошибок в словах):
- Gemini Pro: 7.6% (лучше меньше, да лучше)
- Шепот v3: 17.6%

Этические обязательства Google

В запись в блогеGoogle подчеркнула свою приверженность ответственным и этичным методам работы с искусственным интеллектом.

По словам представителей Google, Gemini прошел более тщательное тестирование, чем все предыдущие ИИ Google, оценивая такие факторы, как предвзятость, токсичность, угрозы кибербезопасности и возможность использования не по назначению. Состязательные методы помогли выявить проблемы на ранней стадии. Затем внешние эксперты провели стресс-тестирование и "повторное тестирование" моделей, чтобы выявить дополнительные "слепые пятна".

Google заявляет, что ответственность и безопасность будут оставаться приоритетами на фоне стремительного развития ИИ. Компания помогла создать отраслевые группы для выработки лучших практик, включая MLCommons и Secure AI Framework (SAIF).

Google обещает продолжать сотрудничество с исследователями, правительствами и общественными организациями по всему миру.

Выпуск Gemini Ultra

Пока что Google ограничивает доступ к самой мощной итерации модели - Gemini Ultra, которая появится в начале следующего года.

До этого избранные разработчики и эксперты будут экспериментировать с Ultra, чтобы оставить свои отзывы. Запуск совпадет с появлением новой передовой платформы для создания моделей ИИ, или, как Google называет ее "опыт", Bard Advanced.

Близнецы для разработчиков

Начиная с 13 декабря разработчики и корпоративные клиенты получат доступ к Gemini Pro через Gemini API, доступный в Google AI Studio или Google Cloud Vertex AI.

Google AI Studio: Удобный веб-инструмент Google AI Studio предназначен для того, чтобы помочь разработчикам создавать прототипы и запускать приложения, используя ключ API. Этот бесплатный ресурс идеально подходит для тех, кто находится на начальных этапах разработки приложений.

Вертекс ИИ: Vertex AI - более комплексная платформа искусственного интеллекта, предлагающая полностью управляемые услуги. Она легко интегрируется с Google Cloud, а также обеспечивает корпоративную безопасность, конфиденциальность и соответствие нормам управления данными.

Помимо этих платформ, разработчики Android смогут получить доступ к Gemini Nano для решения задач на устройстве. Он будет доступен для интеграции через AICore. Эта новая системная возможность дебютирует в Android 14, начиная с устройств Pixel 8 Pro.

Пока что тузы у Google.

OpenAI и Google отличаются друг от друга по одному большому признаку: Google разрабатывает множество других инструментов и продуктов своими силами, включая те, которыми ежедневно пользуются миллиарды людей.

Речь, конечно же, идет об Android, Chrome, Gmail, Google Workplace и Google Search.

У OpenAI, благодаря альянсу с Microsoft, есть аналогичные возможности через Copilot, но они пока не получили широкого распространения.

И если говорить начистоту, то Google, вероятно, занимает лидирующие позиции в этих категориях товаров.

Google продолжает гонку за ИИ, но вы можете быть уверены, что это только подстегнет стремление OpenAI к GPT-5 и AGI.

Google представляет революционное семейство мультимодальных моделей Gemini

Является ли Gemini убийцей ChatGPT?

Бенчмарки Gemini - тесты и анализ

Производительность эталонных образцов Text/NLP

Мультимодальные эталоны производительности

Этические обязательства Google

Выпуск Gemini Ultra

Близнецы для разработчиков

Пока что тузы у Google.

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Google представляет революционное семейство мультимодальных моделей Gemini

Является ли Gemini убийцей ChatGPT?

Бенчмарки Gemini - тесты и анализ

Производительность эталонных образцов Text/NLP

Мультимодальные эталоны производительности

Этические обязательства Google

Выпуск Gemini Ultra

Близнецы для разработчиков

Пока что тузы у Google.

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI