Google Research представила Lumiere, модель диффузии текста в видео, которая создает удивительно реалистичные видеоролики на основе текстовых или графических подсказок.
Неподвижные изображения, созданные такими инструментами, как Середина путешествия или "ДАЛЛ-И" просто невероятны, но "text-to-video" (TTV) по понятным причинам отстает от них и пока что впечатляет гораздо меньше.
За последние 12 месяцев модели TTV, такие как от Pika Labs или Stable Video Diffusion, проделали большой путь, но реалистичность и непрерывность движения все еще немного неуклюжи.
Lumiere представляет собой большой скачок в развитии TTV благодаря новому подходу к созданию пространственно-временной когерентности видео. Другими словами, цель состоит в том, чтобы сцены в каждом кадре оставались визуально последовательными, а движения - плавными.
Что может сделать Люмьер?
Lumiere обладает широкими возможностями по созданию видео, включая следующие:
- Текст в видео - Введите текстовую подсказку, и Lumiere сгенерирует 5-секундный видеоклип, состоящий из 80 кадров со скоростью 16 кадров в секунду.
- Переход от изображения к видео - Lumiere берет изображение в качестве подсказки и превращает его в видео.
- Стилизованное поколение - Изображение может быть использовано в качестве эталона стиля. Lumiere использует текстовую подсказку для создания видео в стиле опорного изображения.
- Стилизация видео - Lumiere может редактировать исходное видео в соответствии со стилистикой текста.
- Синемаграфы - Выберите область на неподвижном изображении, и Lumiere анимирует эту часть изображения.
- Перекрашивание видео - Lumiere может взять видеосцену с маской и закрасить ее, чтобы завершить видео. Он также может редактировать исходное видео, удаляя или заменяя элементы в сцене.
На видео ниже показаны некоторые из впечатляющих видеороликов, которые может создавать Lumiere.
Как Lumiere это делает?
Существующие модели TTV используют каскадную схему, когда базовая модель генерирует подмножество ключевых кадров, а затем они используют модель временного сверхразрешения (TSR) для генерирования данных, чтобы заполнить промежутки между кадрами.
Такой подход экономит память, но попытка заполнить пробелы между субдискретизированным набором ключевых кадров приводит к получению видео с временной несогласованностью или глюками в движении. Затем кадры с низким разрешением увеличиваются с помощью модели пространственного сверхразрешения (SSR) в непересекающихся окнах.
Lumiere использует другой подход. Она использует архитектуру Space-Time U-Net (STUNet), которая учится уменьшать дискретизацию сигнала в пространстве и времени и обрабатывает все кадры одновременно.
Поскольку Lumiere не просто передает подмножество ключевых кадров в TSR, он добивается глобальной когерентности движения. Чтобы получить видео высокого разрешения, Lumiere применяет модель SSR к перекрывающимся окнам и использует MultiDiffusion для объединения предсказаний в когерентный результат.
Google Research провела исследование, которое показало, что пользователи в подавляющем большинстве случаев предпочитают видеоролики Lumiere другим моделям TTV.
Конечным результатом может быть только 5-секундный ролик, но реалистичность и согласованность визуальных эффектов и движений превосходит все, что есть на данный момент. Большинство других решений для TTV пока генерируют только 3-секундные ролики.
Lumiere не умеет работать с переходами между сценами или многокадровыми видеосценами, но более длинная многокадровая функциональность почти наверняка находится в разработке.
В Исследовательская работа "ЛюмьерGoogle отметила, что "существует риск неправомерного использования нашей технологии для создания поддельного или вредного контента".
Надеюсь, они найдут способ эффективно наносить водяные знаки на свои видео и избегать проблем с авторскими правами, чтобы выпустить Lumiere и дать нам возможность испытать его в деле.