Google представила Lumiere, модель распространения текста в видео

Google Research представила Lumiere, модель диффузии текста в видео, которая создает удивительно реалистичные видеоролики на основе текстовых или графических подсказок.

Неподвижные изображения, созданные такими инструментами, как Середина путешествия или "ДАЛЛ-И" просто невероятны, но "text-to-video" (TTV) по понятным причинам отстает от них и пока что впечатляет гораздо меньше.

За последние 12 месяцев модели TTV, такие как от Pika Labs или Stable Video Diffusion, проделали большой путь, но реалистичность и непрерывность движения все еще немного неуклюжи.

Lumiere представляет собой большой скачок в развитии TTV благодаря новому подходу к созданию пространственно-временной когерентности видео. Другими словами, цель состоит в том, чтобы сцены в каждом кадре оставались визуально последовательными, а движения - плавными.

Что может сделать Люмьер?

Lumiere обладает широкими возможностями по созданию видео, включая следующие:

Текст в видео - Введите текстовую подсказку, и Lumiere сгенерирует 5-секундный видеоклип, состоящий из 80 кадров со скоростью 16 кадров в секунду.
Переход от изображения к видео - Lumiere берет изображение в качестве подсказки и превращает его в видео.
Стилизованное поколение - Изображение может быть использовано в качестве эталона стиля. Lumiere использует текстовую подсказку для создания видео в стиле опорного изображения.
Стилизация видео - Lumiere может редактировать исходное видео в соответствии со стилистикой текста.
Синемаграфы - Выберите область на неподвижном изображении, и Lumiere анимирует эту часть изображения.
Перекрашивание видео - Lumiere может взять видеосцену с маской и закрасить ее, чтобы завершить видео. Он также может редактировать исходное видео, удаляя или заменяя элементы в сцене.

На видео ниже показаны некоторые из впечатляющих видеороликов, которые может создавать Lumiere.

Как Lumiere это делает?

Существующие модели TTV используют каскадную схему, когда базовая модель генерирует подмножество ключевых кадров, а затем они используют модель временного сверхразрешения (TSR) для генерирования данных, чтобы заполнить промежутки между кадрами.

Такой подход экономит память, но попытка заполнить пробелы между субдискретизированным набором ключевых кадров приводит к получению видео с временной несогласованностью или глюками в движении. Затем кадры с низким разрешением увеличиваются с помощью модели пространственного сверхразрешения (SSR) в непересекающихся окнах.

Lumiere использует другой подход. Она использует архитектуру Space-Time U-Net (STUNet), которая учится уменьшать дискретизацию сигнала в пространстве и времени и обрабатывает все кадры одновременно.

Поскольку Lumiere не просто передает подмножество ключевых кадров в TSR, он добивается глобальной когерентности движения. Чтобы получить видео высокого разрешения, Lumiere применяет модель SSR к перекрывающимся окнам и использует MultiDiffusion для объединения предсказаний в когерентный результат.

Google Research провела исследование, которое показало, что пользователи в подавляющем большинстве случаев предпочитают видеоролики Lumiere другим моделям TTV.

Предпочтения пользователей в отношении качества перехода текста в видео, соответствия видео текстовой подсказке и качества перехода изображения в видео. Источник: Исследования Google

Конечным результатом может быть только 5-секундный ролик, но реалистичность и согласованность визуальных эффектов и движений превосходит все, что есть на данный момент. Большинство других решений для TTV пока генерируют только 3-секундные ролики.

Lumiere не умеет работать с переходами между сценами или многокадровыми видеосценами, но более длинная многокадровая функциональность почти наверняка находится в разработке.

В Исследовательская работа "ЛюмьерGoogle отметила, что "существует риск неправомерного использования нашей технологии для создания поддельного или вредного контента".

Надеюсь, они найдут способ эффективно наносить водяные знаки на свои видео и избегать проблем с авторскими правами, чтобы выпустить Lumiere и дать нам возможность испытать его в деле.

Google представляет Lumiere, модель распространения текста в видео.

Что может сделать Люмьер?

Как Lumiere это делает?

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

Google представляет Lumiere, модель распространения текста в видео.

Что может сделать Люмьер?

Как Lumiere это делает?

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI