Google представляет Lumiere, модель распространения текста в видео.

24 января 2024 года

Google Research представила Lumiere, модель диффузии текста в видео, которая создает удивительно реалистичные видеоролики на основе текстовых или графических подсказок.

Неподвижные изображения, созданные такими инструментами, как Середина путешествия или "ДАЛЛ-И" просто невероятны, но "text-to-video" (TTV) по понятным причинам отстает от них и пока что впечатляет гораздо меньше.

За последние 12 месяцев модели TTV, такие как от Pika Labs или Stable Video Diffusion, проделали большой путь, но реалистичность и непрерывность движения все еще немного неуклюжи.

Lumiere представляет собой большой скачок в развитии TTV благодаря новому подходу к созданию пространственно-временной когерентности видео. Другими словами, цель состоит в том, чтобы сцены в каждом кадре оставались визуально последовательными, а движения - плавными.

Что может сделать Люмьер?

Lumiere обладает широкими возможностями по созданию видео, включая следующие:

  • Текст в видео - Введите текстовую подсказку, и Lumiere сгенерирует 5-секундный видеоклип, состоящий из 80 кадров со скоростью 16 кадров в секунду.
  • Переход от изображения к видео - Lumiere берет изображение в качестве подсказки и превращает его в видео.
  • Стилизованное поколение - Изображение может быть использовано в качестве эталона стиля. Lumiere использует текстовую подсказку для создания видео в стиле опорного изображения.
  • Стилизация видео - Lumiere может редактировать исходное видео в соответствии со стилистикой текста.
  • Синемаграфы - Выберите область на неподвижном изображении, и Lumiere анимирует эту часть изображения.
  • Перекрашивание видео - Lumiere может взять видеосцену с маской и закрасить ее, чтобы завершить видео. Он также может редактировать исходное видео, удаляя или заменяя элементы в сцене.

На видео ниже показаны некоторые из впечатляющих видеороликов, которые может создавать Lumiere.

Как Lumiere это делает?

Существующие модели TTV используют каскадную схему, когда базовая модель генерирует подмножество ключевых кадров, а затем они используют модель временного сверхразрешения (TSR) для генерирования данных, чтобы заполнить промежутки между кадрами.

Такой подход экономит память, но попытка заполнить пробелы между субдискретизированным набором ключевых кадров приводит к получению видео с временной несогласованностью или глюками в движении. Затем кадры с низким разрешением увеличиваются с помощью модели пространственного сверхразрешения (SSR) в непересекающихся окнах.

Lumiere использует другой подход. Она использует архитектуру Space-Time U-Net (STUNet), которая учится уменьшать дискретизацию сигнала в пространстве и времени и обрабатывает все кадры одновременно.

Поскольку Lumiere не просто передает подмножество ключевых кадров в TSR, он добивается глобальной когерентности движения. Чтобы получить видео высокого разрешения, Lumiere применяет модель SSR к перекрывающимся окнам и использует MultiDiffusion для объединения предсказаний в когерентный результат.

Google Research провела исследование, которое показало, что пользователи в подавляющем большинстве случаев предпочитают видеоролики Lumiere другим моделям TTV.

Предпочтения пользователей в отношении качества перехода текста в видео, соответствия видео текстовой подсказке и качества перехода изображения в видео. Источник: Исследования Google

Конечным результатом может быть только 5-секундный ролик, но реалистичность и согласованность визуальных эффектов и движений превосходит все, что есть на данный момент. Большинство других решений для TTV пока генерируют только 3-секундные ролики.

Lumiere не умеет работать с переходами между сценами или многокадровыми видеосценами, но более длинная многокадровая функциональность почти наверняка находится в разработке.

В Исследовательская работа "ЛюмьерGoogle отметила, что "существует риск неправомерного использования нашей технологии для создания поддельного или вредного контента".

Надеюсь, они найдут способ эффективно наносить водяные знаки на свои видео и избегать проблем с авторскими правами, чтобы выпустить Lumiere и дать нам возможность испытать его в деле.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения