Google I/O 2024 - вот основные моменты в области искусственного интеллекта, о которых рассказала компания Google

Май 15, 2024

  • На мероприятии Google I/O 2024 были анонсированы новые продукты Google AI и прототипы.
  • Gemini Pro 1.5 получит обновление 2M контекста и будет интегрирован в Google Workspaces
  • Были продемонстрированы несколько инструментов с мультимодальными возможностями и новые генераторы изображений, музыки и видео.

Во вторник стартовало мероприятие Google I/O 2024, на котором были анонсированы многочисленные новинки в области искусственного интеллекта.

OpenAI возможно, пыталась превзойти Google с помощью высвобождение ГПТ-4о в понедельник, но ключевой доклад Google I/O 2024 был полон интересных анонсов.

Представляем вашему вниманию наиболее заметные достижения в области ИИ, новые инструменты и прототипы, с которыми экспериментирует Google.

Спросите фотографии

Google Photos, сервис хранения и обмена фотографиями Google, получит возможность поиска по запросам на естественном языке с помощью Ask Photos. Пользователи уже могут искать определенные предметы или людей на своих фотографиях, но Ask Photos выводит эту функцию на новый уровень.

Генеральный директор Google Сундар Пичаи показал, как с помощью Ask Photos можно напомнить номер автомобиля или получить информацию о том, как развиваются способности ребенка к плаванию.

Находится GeminiAsk Photos понимает контекст изображений и может извлекать текст, создавать подборки ярлыков или отвечать на запросы о сохраненных изображениях.

Учитывая, что ежедневно в Google Photos загружается более 6 миллиардов изображений, Ask Photos потребуется огромное контекстное окно, чтобы быть полезным.

Gemini 1.5 Pro

Пичаи объявил, что Gemini 1.5 Pro с контекстным окном на 1М токенов будет доступен для Gemini Продвинутые пользователи. Это примерно 1500 страниц текста, несколько часов аудио и целый час видео.

Разработчики могут записаться в список ожидания, чтобы попробовать Gemini 1.5 Pro с впечатляющим 2-М контекстным окном, которое скоро станет общедоступным. По словам Пичаи, это следующий шаг на пути Google к конечной цели - бесконечному контексту.

Gemini В 1.5 Pro также повышена производительность в области перевода, рассуждений и кодирования, а также реализована возможность анализа загруженного видео и аудио.

Рабочее пространство Google

Расширенный контекст и мультимодальные возможности позволяют Gemini чрезвычайно полезным при интеграции с Google Workspace.

Пользователи могут использовать запросы на естественном языке, чтобы спросить Gemini вопросы, связанные с их электронной почтой. В демонстрационном ролике приводится пример, когда родитель просит предоставить ему сводку последних писем из школы, где учится его ребенок.

Gemini также смогут извлекать основные моменты из часовых встреч Google Meet и отвечать на вопросы о них.

NotebookLM - аудио обзор

Google выпустила NotebookLM в прошлом году. Она позволяет пользователям загружать собственные заметки и документы, по которым NotebookLM становится экспертом.

Это очень полезно в качестве научного руководства или репетитора. Компания Google продемонстрировала экспериментальное обновление под названием Audio Overview.

Аудиообзор использует исходные документы и генерирует аудиообсуждение на основе их содержания. Пользователи могут присоединиться к беседе и использовать речь для запросов к NotebookLM и управления дискуссией.

О сроках распространения Audio Overview пока ничего не известно, но это может стать огромным подспорьем для тех, кому нужен наставник или советник, чтобы решить проблему.

Google также анонсировала LearnLM, новое семейство моделей, основанных на Gemini и доработаны для обучения и образования. LearnLM позволит NotebookLM, YouTube, Search и другим образовательным инструментам стать более интерактивными.

Демонстрация была очень впечатляющей, но уже сейчас кажется, что некоторые из ошибки, допущенные Google со своим оригинальным Gemini В это событие вкрались релизные видеоролики.

Агенты искусственного интеллекта и проект "Астра

Пичаи говорит, что агенты искусственного интеллекта, работающие на основе Gemini скоро смогут решать наши обычные повседневные задачи. Google создает прототипы агентов, которые смогут работать на разных платформах и в разных браузерах.

В качестве примера Пичаи привел случай, когда пользователь инструктировал Gemini чтобы вернуть пару обуви, а затем заставлять агента работать с многочисленными электронными письмами, чтобы найти необходимые данные, зарегистрировать возврат в интернет-магазине и заказать доставку курьером.

Демис Хассабис представил Project Astra, прототип разговорного ИИ-ассистента Google. Демонстрация его мультимодальных возможностей позволила заглянуть в будущее, где ИИ отвечает на вопросы в режиме реального времени, основываясь на живом видео, и запоминает детали из предыдущих видео.

Хассабис сказал, что некоторые из этих функций появятся позже в этом году.

Генеративный ИИ

Компания Google показала нам инструменты генеративного ИИ для работы с изображениями, музыкой и видео.

Компания Google представила Imagen 3, свой самый совершенный генератор изображений. Как сообщается, он более точно реагирует на детали в тонких подсказках и выдает более фотореалистичные изображения.

По словам Хассабиса, Imagen 3 - это "лучшая модель Google для рендеринга текста, что было сложной задачей для моделей генерации изображений".

Music AI Sandbox - это музыкальный генератор с искусственным интеллектом, созданный как профессиональный инструмент для совместного создания музыки, а не как полноценный генератор треков. Это отличный пример того, как ИИ можно использовать для создания хорошей музыки, при этом творческим процессом руководит человек.

Veo - это видеогенератор Google, который превращает текстовые, графические или видео подсказки в минутные ролики с разрешением 1080p. Он также позволяет редактировать видео с помощью текстовых подсказок. Будет ли Veo так же хорош, как Sora?

Компания Google внедрит свою систему цифровых водяных знаков SynthID на текст, аудио, изображения и видео.

 

Триллиум

Все эти новые мультимодальные возможности требуют большой вычислительной мощности для обучения моделей. Пичаи представил Trillium, 6-ю итерацию своих блоков тензорной обработки (TPU). Trillium обеспечивает более чем в 4 раза большую вычислительную мощность по сравнению с предыдущим поколением TPU.

Trillium будет доступен клиентам Google для облачных вычислений в конце этого года и сделает NVIDIA Графические процессоры Blackwell будет доступен в начале 2025 года.

ИИ-поиск

Google будет интегрировать Gemini в свою поисковую платформу, переходя к использованию генеративного искусственного интеллекта при ответе на запросы.

С помощью ИИ Обзор на поисковый запрос выдается исчерпывающий ответ, собранный из множества онлайн-источников. Таким образом, Google Search превращается в помощника исследователя, а не просто находит сайт, на котором может быть найден ответ.

Gemini Google Поиск может использовать многоступенчатые рассуждения для разбора сложных многокомпонентных вопросов и возвращения наиболее релевантной информации из нескольких источников.

GeminiВидеопонимание скоро позволит пользователям использовать видео для запроса в Google Search.

Это будет здорово для пользователей Google Search, но, скорее всего, приведет к снижению трафика для сайтов, с которых Google получает информацию.

Gemini 1,5 вспышка

Google анонсировала легкую, дешевую и быструю модель под названием Gemini 1,5 Flash. По словам Google, эта модель "оптимизирована для узких или высокочастотных задач, где скорость отклика модели имеет наибольшее значение".

Gemini 1.5 Flash будет стоить $0.35 за миллион токенов, что гораздо меньше, чем $7, которые вам придется заплатить за использование Gemini 1,5 Профи.

Каждое из этих достижений и новых продуктов заслуживает отдельного поста. Мы будем публиковать обновления по мере поступления информации или когда нам удастся опробовать их самим.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения