Runway ha presentado su último generador de texto a vídeo (T2V), llamado Gen 3 Alpha, y las demostraciones apuntan a que podría tratarse del mejor generador de vídeo por IA hasta la fecha.
OpenAI Sora nos maravilló hace unos meses, pero aún no se sabe cuándo (o si) saldrá a la venta. Runway ya permite el acceso gratuito y de pago a su herramienta Gen 2 T2V de la generación anterior.
Gen 2 hace algunos vídeos decentes, pero es un poco impreciso y a menudo genera una anatomía extraña o movimientos torpes al generar personas.
Gen 3 Alpha ofrece vídeo hiperrealista con movimientos suaves y modelos humanos coherentes.
Según Runway, "Gen-3 Alpha destaca en la generación de personajes humanos expresivos con una amplia gama de acciones, gestos y emociones, lo que abre nuevas oportunidades narrativas."
Presentamos Gen-3 Alpha: El nuevo modelo base de Runway para la generación de vídeo.
Gen-3 Alpha puede crear vídeos muy detallados con cambios de escena complejos, una amplia gama de opciones cinemáticas y detalladas direcciones artísticas.https://t.co/YQNE3eqoWf
(1/10) pic.twitter.com/VjEG2ocLZ8
- Runway (@runwayml) 17 de junio de 2024
La mayor fidelidad viene acompañada también de una mejora de la velocidad, ya que los clips de 10 segundos de duración máxima se generan en sólo 90 segundos. El límite de clips de 10 segundos es el mismo que el de Sora, el doble que el de Luma y el triple que el de Runway Gen 2.
Además de las representaciones humanas mejoradas, la precisión física de los vídeos es realmente impresionante.
Y pensar que este video es 100% generado por IA, es una locura total las noticias que tenemos sobre videos de IA estos días. #Runway Gen-3 🔥🔥 pic.twitter.com/FLC5TGfYzr
- Pierrick Chevallier | IA (@CharaspowerAI) 17 de junio de 2024
Runway afirma que Gen 3 Alpha potenciará modos de control mejorados que permitirán al usuario seleccionar elementos específicos para que tengan movimiento y controles detallados del movimiento de la cámara con "próximas herramientas para un control más preciso de la estructura, el estilo y el movimiento."
El grado de control de la cámara da una idea de lo cerca que estamos del fin de la producción cinematográfica tradicional.
Prompt: Cámara en mano moviéndose rápido, luz de linterna, en una vieja pared blanca en un viejo callejón por la noche un graffiti negro que deletrea 'Runway'.
(10/10) pic.twitter.com/xRreX33g0r
- Runway (@runwayml) 17 de junio de 2024
OpenAI ya ha insinuado que la preocupación por la alineación es una de las razones por las que aún no ha lanzado Sora. Runway afirma que Gen 3 Alpha incluye un nuevo conjunto de salvaguardas y C2PA, que permite rastrear la procedencia del vídeo generado.
Modelos generales del mundo
La idea de convertir texto en vídeos atraerá a la mayoría de los usuarios, pero Runway afirma que Gen 3 Alpha representa un paso hacia un objetivo diferente.
Runway afirma: "Creemos que el próximo gran avance de la IA vendrá de la mano de sistemas que comprendan el mundo visual y su dinámica, y por eso estamos iniciando un nuevo esfuerzo de investigación a largo plazo en torno a lo que llamamos modelos generales del mundo."
Entrenar a una IA para que navegue e interactúe con un entorno es mucho más rápido y barato cuando se simula. Para que la simulación sea útil, debe representar con exactitud la física y el movimiento de los entornos reales.
Runway afirma que estos modelos generales del mundo "tienen que captar no sólo la dinámica del mundo, sino también la de sus habitantes, lo que implica construir también modelos realistas del comportamiento humano".
La coherencia del movimiento, la física, los rasgos humanos y las emociones en los vídeos de demostración de Gen 3 son la prueba de un gran paso para hacerlo posible.
Es casi seguro que OpenAI ha estado trabajando en un Sora mejorado, pero con la Gen 3 Alpha de Runway, la carrera por el mejor generador de vídeo de IA se ha vuelto mucho más competitiva.
No se sabe cuándo saldrá a la venta la Gen 3 Alpha, pero puedes ver más demostraciones aquí o experimentar con Gen 2 aquí por ahora.