La empresa tecnológica china Kuaishou Technology ha lanzado un generador de texto a vídeo (T2V) llamado Kling que podría rivalizar con Sora, de OpenAI.
En febrero, OpenAI nos sorprendió con Sora vídeos de demostración que nos tuvo a todos buscando frenéticamente el botón de "inscribirse". Cuatro meses después, seguimos esperando el lanzamiento de Sora sin saber cuándo podría producirse.
Kuaishou, con sede en Pekín, desarrolla plataformas para compartir contenidos que, según afirma, hacen que "la producción, distribución y consumo de contenidos sean rápidos y sencillos". La plataforma de vídeos cortos de la empresa, también llamada Kuaishou, es la segunda después de TikTok en cuanto a usuarios activos diarios medios.
Producir contenidos para sus plataformas sería mucho más fácil si no tuviera que depender de contenidos generados por humanos. Esta puede ser una de las motivaciones del desarrollo de su herramienta T2V.
Kling convierte los mensajes de texto en vídeos coherentes desde el punto de vista temporal y espacial. Kuaishou dice Kling puede generar vídeos de hasta 2 minutos a una resolución de 1080p y 30 fotogramas por segundo.
Eso es un minuto más de lo que OpenAI dice que puede producir Sora. La otra gran diferencia es que Kling ya se ha hecho pública, mientras que Sora sigue en secreto. Si estás en China o tienes un número de móvil chino y una VPN, ya puedes probar la aplicación.
Al igual que Sora, Kling utiliza una arquitectura de transformador de difusión. También cuenta con una potente tecnología de reconstrucción facial y corporal en 3D que puede utilizar una imagen de cuerpo entero como estímulo para generar un vídeo con movimientos suaves de las extremidades.
Si recuerdas el vídeo ligeramente aterrador de Will Smith comiendo espaguetis de los primeros días del vídeo generado por IA, entonces apreciarás lo asombroso que es este vídeo generado por Kling.
Sora por OpenAI es una locura.
Pero KWAI acaba de soltar un Sora-llamado KLING, y la gente se está volviendo loca por él.
He aquí 10 ejemplos salvajes que no querrá perderse:
1. Un chino se sienta a la mesa y come fideos con palillos chinospic.twitter.com/MIV5IP3fyQ
- Angry Tom (@AngryTomtweets) 6 de junio de 2024
La mayoría de los impresionantes vídeos de demostración en los que hay mucho movimiento son clips cortos. Los vídeos más largos son más escénicos y con menos elementos dinámicos, lo que puede indicar algunas de las limitaciones de la herramienta.
Este clip de una escena cambiante mostrada desde la perspectiva de la ventanilla de un tren es bastante impresionante.
2. Viajar en tren, viendo todo tipo de paisajes a través de la ventanillapic.twitter.com/WqF9rlJxbh
- Angry Tom (@AngryTomtweets) 6 de junio de 2024
Los elementos visuales con los que históricamente ha tenido problemas la IA son cosas como los dedos, los dientes o los movimientos naturales de la boca. He aquí un impresionante vídeo en el que Kling los reproduce de forma muy natural.
3. Un niño chino con gafas disfruta de una deliciosa hamburguesa con queso con los ojos cerrados en un restaurante de comida rápidapic.twitter.com/ZOCy0n3gTa
- Angry Tom (@AngryTomtweets) 6 de junio de 2024
El lanzamiento de la versión beta de Kling es, en cierto modo, un comentario sobre el enfrentamiento entre Oriente y Occidente en torno a la IA. Mientras Occidente debate sobre la seguridad, la privacidad y los peligros de la desinformación, China avanza a pasos agigantados en su desarrollo. Y ello a pesar de las sanciones estadounidenses que intentan frenarlo.
Mientras OpenAI intenta encontrar la manera de hacer que Sora sea "seguro" o políticamente correcto, puede que tengamos que recurrir a China para que nos proporcione una herramienta T2V decente a falta de una fabricada en Estados Unidos.