OpenAI ha presentado Sora, un modelo de conversión de texto en vídeo (TTV) de última generación que genera vídeos realistas de hasta 60 segundos a partir de un texto del usuario.
Últimamente hemos visto grandes avances en la generación de vídeo con IA. El mes pasado nos emocionamos cuando Google nos hizo una demostración de Lumieresu modelo TTV, que genera videoclips de 5 segundos con una coherencia y un movimiento excelentes.
Apenas han pasado unas semanas y los impresionantes vídeos de demostración generados por Sora hacen que Lumiere de Google parezca bastante pintoresco.
Sora genera vídeos de alta fidelidad que pueden incluir varias escenas con un movimiento simulado de la cámara y seguir al pie de la letra instrucciones complejas. También puede generar imágenes, ampliar vídeos hacia delante y hacia atrás y generar un vídeo utilizando una imagen como guía.
Algunas de las impresionantes prestaciones de Sora residen en cosas que damos por sentadas al ver un vídeo, pero que son difíciles de producir para la IA.
He aquí un ejemplo de vídeo generado por Sora a partir de la pregunta: "Un tráiler de película con las aventuras del hombre del espacio de 30 años que lleva un casco de moto de punto de lana roja, cielo azul, desierto salado, estilo cinematográfico, rodado en película de 35 mm, colores vivos".
https://youtu.be/twyhYQM9254
Este breve vídeo muestra algunas de las principales características de Sora que lo hacen realmente especial.
- El tema era bastante complejo y el vídeo generado se ajustaba a él.
- Sora mantiene la coherencia del personaje. Incluso cuando el personaje desaparece de un fotograma y vuelve a aparecer, su aspecto sigue siendo coherente.
- Sora conserva la permanencia de la imagen. Un objeto de una escena se mantiene en fotogramas posteriores durante el desplazamiento o los cambios de escena.
- El vídeo generado revela una comprensión precisa de la física y los cambios del entorno. La iluminación, las sombras y las huellas en el salar son grandes ejemplos de ello.
Sora no sólo entiende lo que significan las palabras del mensaje, sino también cómo interactúan esos objetos entre sí en el mundo físico.
Aquí tienes otro gran ejemplo del impresionante vídeo que puede generar Sora.
https://youtu.be/g0jt6goVz04
El tema de este vídeo era: "Una mujer con estilo camina por una calle de Tokio llena de cálidos neones brillantes y animada señalización urbana. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva gafas de sol y pintalabios rojo. Camina con seguridad y despreocupación. La calle está húmeda y es reflectante, lo que crea un efecto espejo de las luces de colores. Muchos peatones pasean".
Un paso más hacia el AGI
Puede que los vídeos nos dejen boquiabiertos, pero es esta comprensión del mundo físico lo que entusiasma especialmente a OpenAI.
En el Entrada en el blog de SoraSegún la empresa, "Sora sirve de base para modelos capaces de comprender y simular el mundo real, una capacidad que creemos será un hito importante para lograr la AGI".
Varios investigadores creen que la IA incorporada es necesaria para lograr la inteligencia general artificial (AGI). Integrar la IA en un robot capaz de percibir y explorar un entorno físico es una forma de conseguirlo, pero conlleva una serie de retos prácticos.
Sora se entrenó con una enorme cantidad de datos de vídeo e imágenes que, según OpenAI, son responsables de las capacidades emergentes que muestra el modelo para simular aspectos de personas, animales y entornos del mundo físico.
OpenAI afirma que Sora no fue entrenado explícitamente en la física de los objetos 3D, sino que las habilidades emergentes son "puramente fenómenos de escala".
Esto significa que Sora podría llegar a utilizarse para simular con precisión un mundo digital con el que una IA pudiera interactuar sin necesidad de encarnarla en un dispositivo físico como un robot.
De una manera más simplista, esto es lo que los investigadores chinos intentan conseguir con su AI robot niño pequeño llamado Tong Tong.
Por ahora, tendremos que conformarnos con los vídeos de demostración que OpenAI ha proporcionado. Sora solo se está poniendo a disposición de los miembros del equipo rojo y de algunos artistas visuales, diseñadores y cineastas para obtener comentarios y comprobar la alineación del modelo.
Una vez que Sora se haga público, ¿veremos a los trabajadores de la industria cinematográfica SAG-AFTRA desempolvar sus piquetes?