Google Research presentó Lumiere, un modelo de difusión de texto a vídeo que crea vídeos extraordinariamente realistas a partir de indicaciones de texto o imágenes.
Las imágenes fijas generadas por herramientas como A mitad de camino o DALL-E son increíbles, pero la conversión de texto a vídeo (TTV) se ha quedado comprensiblemente rezagada y ha sido mucho menos impresionante hasta ahora.
Los modelos TTV como los de Pika Labs o Stable Video Diffusion han avanzado mucho en los últimos 12 meses, pero el realismo y la continuidad del movimiento siguen siendo un poco toscos.
Lumiere representa un gran salto en TTV gracias a un novedoso enfoque para generar vídeo coherente espacial y temporalmente. En otras palabras, el objetivo es que las escenas de cada fotograma se mantengan visualmente coherentes y los movimientos sean suaves.
¿Qué puede hacer Lumiere?
Lumiere dispone de una serie de funciones de generación de vídeo, entre las que se incluyen las siguientes:
- Texto a vídeo - Introduzca un texto y Lumiere generará un videoclip de 5 segundos compuesto por 80 fotogramas a 16 fotogramas por segundo.
- Imagen a vídeo - Lumiere toma una imagen como punto de partida y la convierte en un vídeo.
- Generación estilizada - Se puede utilizar una imagen como referencia de estilo. Lumiere utiliza un mensaje de texto para generar un vídeo en el estilo de la imagen de referencia.
- Estilización de vídeo - Lumiere puede editar un vídeo de origen para que coincida con un texto de estilo.
- Cinemagraphs - Seleccione una región en una imagen fija y Lumiere animará esa parte de la imagen.
- Video inpainting - Lumiere puede tomar una escena de vídeo enmascarada y repintarla para completar el vídeo. También puede editar vídeo fuente eliminando o sustituyendo elementos de la escena.
El siguiente vídeo muestra algunos de los impresionantes vídeos que Lumiere puede generar.
¿Cómo lo hace Lumiere?
Los modelos TTV existentes adoptan un diseño en cascada en el que un modelo base genera un subconjunto de fotogramas clave y luego utilizan un modelo de superresolución temporal (TSR) para generar datos que rellenen los huecos entre fotogramas.
Este enfoque es eficiente en términos de memoria, pero si se intenta rellenar los huecos entre un conjunto de fotogramas clave submuestreados, se obtiene un vídeo con incoherencias temporales o movimiento irregular. A continuación, los fotogramas de baja resolución se amplían mediante un modelo de superresolución espacial (SSR) en ventanas que no se solapan.
Lumiere adopta un enfoque diferente. Utiliza una arquitectura U-Net Espacio-Tiempo (STUNet) que aprende a reducir la muestra de la señal tanto en el espacio como en el tiempo y procesa todos los fotogramas a la vez.
Al no limitarse a pasar un subconjunto de fotogramas clave de muestra a un TSR, Lumiere consigue un movimiento globalmente coherente. Para obtener el vídeo de alta resolución, Lumiere aplica un modelo SSR en ventanas superpuestas y utiliza MultiDiffusion para combinar las predicciones en un resultado coherente.
Google Research realizó un estudio de usuarios que demostró que los usuarios preferían abrumadoramente los vídeos de Lumiere a los de otros modelos de TTV.
Puede que el resultado final sea sólo un clip de 5 segundos, pero el realismo y la coherencia visual y de movimiento son mejores que cualquier otra cosa disponible actualmente. Por ahora, la mayoría de las soluciones TTV sólo generan clips de 3 segundos.
Lumiere no maneja transiciones de escenas ni escenas de vídeo multidisparo, pero es casi seguro que la funcionalidad multiescena más larga está en proyecto.
En el Documento de investigación Lumiere, Google señaló que "existe un riesgo de uso indebido para crear contenidos falsos o dañinos con nuestra tecnología".
Esperemos que encuentren la manera de poner marcas de agua a sus vídeos y evitar problemas de derechos de autor para que puedan lanzar Lumiere y que podamos probarlo.