Google представляет революционное семейство мультимодальных моделей Gemini

6 декабря 2023 года
Google Med-PaLM 2

Компания Google запустила семейство мультимодальных моделей искусственного интеллекта Gemini, что стало серьезным событием в индустрии, все еще переживающей события на OpenAI.

Gemini - это семейство мультимодальных моделей, способных обрабатывать и понимать текст, изображения, аудио и видео.

Сундар Пичаи, генеральный директор Google, и Демис Хассабис, генеральный директор Google DeepMind, возлагают на Gemini большие надежды. Google планирует интегрировать его во все продукты и сервисы Google, включая поиск, Карты и Chrome.

Gemini может похвастаться всеобъемлющей мультимодальностью, обрабатывая и взаимодействуя с текстом, изображениями, видео и аудио. В то время как мы привыкли к обработке текста и изображений, аудио и видео открывают новые возможности, предлагая новые захватывающие способы работы с богатым мультимедиа.

Хассабис отмечает: "Эти модели просто лучше понимают окружающий мир".

Пичаи подчеркнул связь модели с продуктами и сервисами Google, заявив: "Одна из важных вещей в этом моменте - вы можете работать над одной базовой технологией и улучшать ее, и это немедленно перетекает в наши продукты".

Близнецы будут принимать три различные формы:

  • Gemini Nano: Облегченная версия, адаптированная для устройств на базе Android, с автономным и нативным функционалом.
  • Gemini Pro: Более продвинутая версия, которая будет использоваться в многочисленных сервисах Google AI, включая Bard.
  • Близнецы Ультра: Самая мощная итерация, предназначенная в первую очередь для центров обработки данных и корпоративных приложений, запланирована к выпуску на следующий год.

Что касается производительности, то, по утверждению Google, Gemini превосходит GPT-4 в 30 из 32 бенчмарков, особенно преуспевая в понимании и взаимодействии с видео и аудио. Такая производительность объясняется тем, что Gemini с самого начала разрабатывалась как мультисенсорная модель.


Кроме того, Google подчеркнула эффективность Gemini.

Обученный на собственных блоках обработки тензоров (TPU) Google, он быстрее и экономичнее предыдущих моделей. Вместе с Gemini Google выпускает TPU v5p для центров обработки данных, что повышает эффективность работы с крупномасштабными моделями.

Является ли Gemini убийцей ChatGPT?

Компания Google явно заинтересована в Gemini. В начале года компания Утечка по полуанализу По мнению специалистов, Gemini может выбить конкурентов из колеи и превратить Google из периферийного участника индустрии генеративного ИИ в главного героя, опередившего OpenAI.

Помимо мультимодальности, Gemini, как утверждается, является первой моделью, которая превзошла человеческих экспертов в массовом многозадачном тесте на понимание языка (MMLU), который проверяет знание мира и способность решать проблемы по 57 предметам, таким как математика, физика, история, право, медицина и этика.

 

Пичаи говорит, что запуск Gemini предвещает "новую эру" в искусственном интеллекте, и подчеркивает, что Gemini получит преимущества от обширного каталога продуктов Google.

Интеграция с поисковыми системами особенно интересна, поскольку Google доминирует в этом пространстве и имеет в своем распоряжении преимущества самого полного в мире поискового индекса.

Выпуск Gemini прочно вошел в гонку ИИ, и люди будут стремиться проверить его в сравнении с GPT-4.

Бенчмарки Gemini - тесты и анализ

В запись в блогеGoogle опубликовала результаты бенчмарков, которые показывают, что Gemini Ultra выигрывает у GPT-4 в большинстве тестов. Он также может похвастаться расширенными возможностями кодирования, демонстрируя выдающиеся результаты в таких бенчмарках, как HumanEval и Natural2Code.

 

Вот эталонные данные. Имейте в виду, что в этих тестах используется еще не вышедшая версия Gemini Ultra. Gemini можно будет считать убийцей ChatGPT только в следующем году. И вы можете быть уверены, что OpenAI начнет противодействовать Gemini как можно скорее.

Производительность эталонных образцов Text/NLP

Общие знания:

  • MMLU (Massive Multitask Language Understanding):
    • Gemini Ultra: 90.0% (Цепь мыслей на 32 примера)
    • GPT-4: 86.4% (5 выстрелов, отчет)

Рассуждения:

  • Big-Bench Hard (разнообразный набор сложных задач, требующих многоэтапных рассуждений):
    • Gemini Ultra: 83.6% (3 выстрела)
    • GPT-4: 83.1% (3-shot, API)
  • DROP (понимание прочитанного, F1 Score):
    • Gemini Ultra: 82,4 (переменные выстрелы)
    • GPT-4: 80,9 (3 выстрела, отчет)
  • HellaSwag (здравые рассуждения для решения повседневных задач):
    • Gemini Ultra: 87.8% (10 выстрелов)
    • GPT-4: 95.3% (10 выстрелов, заявлено)

Математика:

  • GSM8K (базовые арифметические действия, включая задачи по математике для начальной школы):
    • Gemini Ultra: 94.4% (большинство в 32 примерах)
    • GPT-4: 92.0% (5 выстрелов "Цепи размышлений", сообщено)
  • MATH (сложные математические задачи, включая алгебру, геометрию, прекалькулус и другие):
    • Gemini Ultra: 53.2% (4 выстрела)
    • GPT-4: 52.9% (4 выстрела, API)

Код:

  • HumanEval (генерация кода на языке Python):
    • Gemini Ultra: 74.4% (0-выстрел, внутренний тест)
    • GPT-4: 67.0% (0-выстрел, сообщено)
  • Natural2Code (генерация кода на Python, новый набор данных, похожий на HumanEval, в сеть не просочился):
    • Gemini Ultra: 74.9% (0-выстрел)
    • GPT-4: 73.9% (0-шот, API)

Мультимодальные эталоны производительности

Мультимодальные возможности модели ИИ Gemini от Google также сравниваются с GPT-4V от OpenAI.

Понимание и обработка изображений:

  • MMMU (Multi-discipline College-level Reasoning Problems):
    • Gemini Ultra: 59.4% (0-выстрел пасс@1, только пиксель)
    • GPT-4V: 56.8% (0-выстрел пас@1)
  • VQAv2 (Естественное понимание изображений):
    • Gemini Ultra: 77.8% (0-выстрел, только пиксель)
    • GPT-4V: 77.2% (0-выстрел)
  • TextVQA (OCR на естественных изображениях):
    • Gemini Ultra: 82.3% (0-выстрел, только пиксель)
    • GPT-4V: 78.0% (0-выстрел)
  • DocVQA (понимание документов):
    • Gemini Ultra: 90.9% (0-выстрел, только пиксель)
    • GPT-4V: 88,4% (0-выстрел, только пиксель)
  • Инфографика VQA (понимание инфографики):
    • Gemini Ultra: 80.3% (0-выстрел, только пиксель)
    • GPT-4V: 75.1% (0-выстрел, только пиксель)
  • MathVista (Математические рассуждения в визуальных контекстах):
    • Gemini Ultra: 53.0% (0-выстрел, только пиксель)
    • GPT-4V: 49.9% (0-выстрел)

Обработка видео:

  • VATEX (английские видео субтитры, CIDEr Score):
    • Gemini Ultra: 62,7 (4 выстрела)
    • DeepMind Flamingo: 56,0 (4 выстрела)
  • Тест на восприятие MCQA (видеоответы на вопросы):
    • Gemini Ultra: 54.7% (0-выстрел)
    • SeViLA: 46.3% (0-шот)

Обработка звука:

  • CoVoST 2 (автоматический перевод речи, 21 язык, BLEU Score):
    • Gemini Pro: 40.1
    • Шепот v2: 29.1
  • FLEURS (автоматическое распознавание речи, 62 языка, коэффициент ошибок в словах):
    • Gemini Pro: 7.6% (лучше меньше, да лучше)
    • Шепот v3: 17.6%

Этические обязательства Google

В запись в блогеGoogle подчеркнула свою приверженность ответственным и этичным методам работы с искусственным интеллектом.

По словам представителей Google, Gemini прошел более тщательное тестирование, чем все предыдущие ИИ Google, оценивая такие факторы, как предвзятость, токсичность, угрозы кибербезопасности и возможность использования не по назначению. Состязательные методы помогли выявить проблемы на ранней стадии. Затем внешние эксперты провели стресс-тестирование и "повторное тестирование" моделей, чтобы выявить дополнительные "слепые пятна".

Google заявляет, что ответственность и безопасность будут оставаться приоритетами на фоне стремительного развития ИИ. Компания помогла создать отраслевые группы для выработки лучших практик, включая MLCommons и Secure AI Framework (SAIF).

Google обещает продолжать сотрудничество с исследователями, правительствами и общественными организациями по всему миру.

Выпуск Gemini Ultra

Пока что Google ограничивает доступ к самой мощной итерации модели - Gemini Ultra, которая появится в начале следующего года.

До этого избранные разработчики и эксперты будут экспериментировать с Ultra, чтобы оставить свои отзывы. Запуск совпадет с появлением новой передовой платформы для создания моделей ИИ, или, как Google называет ее "опыт", Bard Advanced.

Близнецы для разработчиков

Начиная с 13 декабря разработчики и корпоративные клиенты получат доступ к Gemini Pro через Gemini API, доступный в Google AI Studio или Google Cloud Vertex AI.

Google AI Studio: Удобный веб-инструмент Google AI Studio предназначен для того, чтобы помочь разработчикам создавать прототипы и запускать приложения, используя ключ API. Этот бесплатный ресурс идеально подходит для тех, кто находится на начальных этапах разработки приложений.

Вертекс ИИ: Vertex AI - более комплексная платформа искусственного интеллекта, предлагающая полностью управляемые услуги. Она легко интегрируется с Google Cloud, а также обеспечивает корпоративную безопасность, конфиденциальность и соответствие нормам управления данными.

Помимо этих платформ, разработчики Android смогут получить доступ к Gemini Nano для решения задач на устройстве. Он будет доступен для интеграции через AICore. Эта новая системная возможность дебютирует в Android 14, начиная с устройств Pixel 8 Pro.

Пока что тузы у Google.

OpenAI и Google отличаются друг от друга по одному большому признаку: Google разрабатывает множество других инструментов и продуктов своими силами, включая те, которыми ежедневно пользуются миллиарды людей.

Речь, конечно же, идет об Android, Chrome, Gmail, Google Workplace и Google Search.

У OpenAI, благодаря альянсу с Microsoft, есть аналогичные возможности через Copilot, но они пока не получили широкого распространения.

И если говорить начистоту, то Google, вероятно, занимает лидирующие позиции в этих категориях товаров.

Google продолжает гонку за ИИ, но вы можете быть уверены, что это только подстегнет стремление OpenAI к GPT-5 и AGI.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×
 
 

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI


 

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".



 
 

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения