Во вторник стартовало мероприятие Google I/O 2024, на котором были анонсированы многочисленные новинки в области искусственного интеллекта.
OpenAI возможно, пыталась превзойти Google с помощью высвобождение ГПТ-4о в понедельник, но ключевой доклад Google I/O 2024 был полон интересных анонсов.
Представляем вашему вниманию наиболее заметные достижения в области ИИ, новые инструменты и прототипы, с которыми экспериментирует Google.
Спросите фотографии
Google Photos, сервис хранения и обмена фотографиями Google, получит возможность поиска по запросам на естественном языке с помощью Ask Photos. Пользователи уже могут искать определенные предметы или людей на своих фотографиях, но Ask Photos выводит эту функцию на новый уровень.
Генеральный директор Google Сундар Пичаи показал, как с помощью Ask Photos можно напомнить номер автомобиля или получить информацию о том, как развиваются способности ребенка к плаванию.
Находится GeminiAsk Photos понимает контекст изображений и может извлекать текст, создавать подборки ярлыков или отвечать на запросы о сохраненных изображениях.
Учитывая, что ежедневно в Google Photos загружается более 6 миллиардов изображений, Ask Photos потребуется огромное контекстное окно, чтобы быть полезным.
Что, если бы ваши фотографии могли отвечать на ваши вопросы? 🤔 На #GoogleIO Сегодня мы анонсировали Ask Photos, новую функцию Google Photos, которая именно это и делает. Ask Photos - это новый способ поиска по вашим фотографиям с помощью Gemini. #AskPhotos https://t.co/KhPeCauFAf pic.twitter.com/3MZg55SgdD
- Google Фото (@googlephotos) 14 мая 2024 года
Gemini 1.5 Pro
Пичаи объявил, что Gemini 1.5 Pro с контекстным окном на 1М токенов будет доступен для Gemini Продвинутые пользователи. Это примерно 1500 страниц текста, несколько часов аудио и целый час видео.
Разработчики могут записаться в список ожидания, чтобы попробовать Gemini 1.5 Pro с впечатляющим 2-М контекстным окном, которое скоро станет общедоступным. По словам Пичаи, это следующий шаг на пути Google к конечной цели - бесконечному контексту.
Gemini В 1.5 Pro также повышена производительность в области перевода, рассуждений и кодирования, а также реализована возможность анализа загруженного видео и аудио.
"Он прибил ее".
"Это все меняет".
"Это потрясающий опыт".
"Я чувствовал, что у меня есть суперспособность".
"Это будет потрясающе".Узнайте от разработчиков, которые уже опробовали Gemini 1.5 Pro с контекстным окном на 1 миллион жетонов. #GoogleIO pic.twitter.com/odOfI4lvOL
- Google (@Google) 14 мая 2024 года
Рабочее пространство Google
Расширенный контекст и мультимодальные возможности позволяют Gemini чрезвычайно полезным при интеграции с Google Workspace.
Пользователи могут использовать запросы на естественном языке, чтобы спросить Gemini вопросы, связанные с их электронной почтой. В демонстрационном ролике приводится пример, когда родитель просит предоставить ему сводку последних писем из школы, где учится его ребенок.
Gemini также смогут извлекать основные моменты из часовых встреч Google Meet и отвечать на вопросы о них.
NotebookLM - аудио обзор
Google выпустила NotebookLM в прошлом году. Она позволяет пользователям загружать собственные заметки и документы, по которым NotebookLM становится экспертом.
Это очень полезно в качестве научного руководства или репетитора. Компания Google продемонстрировала экспериментальное обновление под названием Audio Overview.
Аудиообзор использует исходные документы и генерирует аудиообсуждение на основе их содержания. Пользователи могут присоединиться к беседе и использовать речь для запросов к NotebookLM и управления дискуссией.
NotebookLM! Очень люблю этот проект, проект "Аркады" с искусственным интеллектом. Благодаря мультимодальности Gemini Pro 1.5, он может автоматически создавать аудиообсуждения исходного материала, который вы добавили в свои источники. pic.twitter.com/IhhSfj8AqR
- Дитер Бон (@backlon) 14 мая 2024 года
О сроках распространения Audio Overview пока ничего не известно, но это может стать огромным подспорьем для тех, кому нужен наставник или советник, чтобы решить проблему.
Google также анонсировала LearnLM, новое семейство моделей, основанных на Gemini и доработаны для обучения и образования. LearnLM позволит NotebookLM, YouTube, Search и другим образовательным инструментам стать более интерактивными.
Демонстрация была очень впечатляющей, но уже сейчас кажется, что некоторые из ошибки, допущенные Google со своим оригинальным Gemini В это событие вкрались релизные видеоролики.
Демонстрация notebooklm не работает в реальном времени. Я бы хотел, чтобы они обозначили это ожидание, не пряча его в сноске, набранной самым мелким шрифтом. pic.twitter.com/tGN5i3fsVD
- Делип Рао e/σ (@deliprao) 14 мая 2024 года
Агенты искусственного интеллекта и проект "Астра
Пичаи говорит, что агенты искусственного интеллекта, работающие на основе Gemini скоро смогут решать наши обычные повседневные задачи. Google создает прототипы агентов, которые смогут работать на разных платформах и в разных браузерах.
В качестве примера Пичаи привел случай, когда пользователь инструктировал Gemini чтобы вернуть пару обуви, а затем заставлять агента работать с многочисленными электронными письмами, чтобы найти необходимые данные, зарегистрировать возврат в интернет-магазине и заказать доставку курьером.
Демис Хассабис представил Project Astra, прототип разговорного ИИ-ассистента Google. Демонстрация его мультимодальных возможностей позволила заглянуть в будущее, где ИИ отвечает на вопросы в режиме реального времени, основываясь на живом видео, и запоминает детали из предыдущих видео.
Хассабис сказал, что некоторые из этих функций появятся позже в этом году.
Мы уже давно работаем над созданием универсального ИИ-агента, который может быть действительно полезен в повседневной жизни. Сегодня в #GoogleIO мы продемонстрировали наши последние достижения в этой области: Project Astra. Вот видео нашего прототипа, снятое в режиме реального времени. pic.twitter.com/TSGDJZVslg
- Демис Хассабис (@demishassabis) 14 мая 2024 года
Генеративный ИИ
Компания Google показала нам инструменты генеративного ИИ для работы с изображениями, музыкой и видео.
Компания Google представила Imagen 3, свой самый совершенный генератор изображений. Как сообщается, он более точно реагирует на детали в тонких подсказках и выдает более фотореалистичные изображения.
По словам Хассабиса, Imagen 3 - это "лучшая модель Google для рендеринга текста, что было сложной задачей для моделей генерации изображений".
Сегодня мы представляем Imagen 3, DeepMind?ref_src=twsrc%5Etfw”>@GoogleDeepMindсамая совершенная модель генерации изображений. Она понимает подсказки так, как пишут люди, создает более фотореалистичные изображения и является нашей лучшей моделью для рендеринга текста. #GoogleIO pic.twitter.com/6bjidsz6pJ
- Google (@Google) 14 мая 2024 года
Music AI Sandbox - это музыкальный генератор с искусственным интеллектом, созданный как профессиональный инструмент для совместного создания музыки, а не как полноценный генератор треков. Это отличный пример того, как ИИ можно использовать для создания хорошей музыки, при этом творческим процессом руководит человек.
Veo - это видеогенератор Google, который превращает текстовые, графические или видео подсказки в минутные ролики с разрешением 1080p. Он также позволяет редактировать видео с помощью текстовых подсказок. Будет ли Veo так же хорош, как Sora?
Компания Google внедрит свою систему цифровых водяных знаков SynthID на текст, аудио, изображения и видео.
Триллиум
Все эти новые мультимодальные возможности требуют большой вычислительной мощности для обучения моделей. Пичаи представил Trillium, 6-ю итерацию своих блоков тензорной обработки (TPU). Trillium обеспечивает более чем в 4 раза большую вычислительную мощность по сравнению с предыдущим поколением TPU.
Trillium будет доступен клиентам Google для облачных вычислений в конце этого года и сделает NVIDIA Графические процессоры Blackwell будет доступен в начале 2025 года.
ИИ-поиск
Google будет интегрировать Gemini в свою поисковую платформу, переходя к использованию генеративного искусственного интеллекта при ответе на запросы.
С помощью ИИ Обзор на поисковый запрос выдается исчерпывающий ответ, собранный из множества онлайн-источников. Таким образом, Google Search превращается в помощника исследователя, а не просто находит сайт, на котором может быть найден ответ.
Gemini Google Поиск может использовать многоступенчатые рассуждения для разбора сложных многокомпонентных вопросов и возвращения наиболее релевантной информации из нескольких источников.
GeminiВидеопонимание скоро позволит пользователям использовать видео для запроса в Google Search.
Это будет здорово для пользователей Google Search, но, скорее всего, приведет к снижению трафика для сайтов, с которых Google получает информацию.
Это Поиск в Gemini эра. #GoogleIO pic.twitter.com/JxldNjbqyn
- Google (@Google) 14 мая 2024 года
А еще вы сможете задавать вопросы с помощью видео прямо в Поиске. Уже скоро. #GoogleIO pic.twitter.com/zFVu8yOWI1
- Google (@Google) 14 мая 2024 года
Gemini 1,5 вспышка
Google анонсировала легкую, дешевую и быструю модель под названием Gemini 1,5 Flash. По словам Google, эта модель "оптимизирована для узких или высокочастотных задач, где скорость отклика модели имеет наибольшее значение".
Gemini 1.5 Flash будет стоить $0.35 за миллион токенов, что гораздо меньше, чем $7, которые вам придется заплатить за использование Gemini 1,5 Профи.
Каждое из этих достижений и новых продуктов заслуживает отдельного поста. Мы будем публиковать обновления по мере поступления информации или когда нам удастся опробовать их самим.