A Runway apresentou o seu mais recente gerador de texto para vídeo (T2V), denominado Gen 3 Alpha, e as demonstrações sugerem que este poderá ser o melhor gerador de vídeo com IA de sempre.
O projeto da OpenAI Sora A Runway já nos impressionou há alguns meses, mas ainda não se sabe quando (ou se) será lançada. A Runway já permite o acesso gratuito e pago à sua ferramenta T2V da geração anterior.
O Gen 2 faz alguns vídeos decentes, mas é um pouco imprevisível e gera frequentemente anatomia estranha ou movimentos desajeitados ao gerar pessoas.
O Gen 3 Alpha oferece vídeo hiper-realista com movimentos suaves e modelos humanos coerentes.
A Runway afirma que "o Gen-3 Alpha é excelente na criação de personagens humanas expressivas com uma vasta gama de acções, gestos e emoções, abrindo novas oportunidades para contar histórias".
Apresentamos o Gen-3 Alpha: O novo modelo básico da Runway para geração de vídeos.
O Gen-3 Alpha pode criar vídeos altamente detalhados com mudanças de cena complexas, uma vasta gama de escolhas cinematográficas e direcções artísticas detalhadas.https://t.co/YQNE3eqoWf
(1/10) pic.twitter.com/VjEG2ocLZ8
- Pista (@runwayml) 17 de junho de 2024
A fidelidade melhorada vem também acompanhada de uma atualização de velocidade, com os clips de 10 segundos de duração máxima gerados em apenas 90 segundos. O limite de clipes de 10 segundos é o mesmo da Sora, o dobro da Luma e o triplo da geração 2 da Runway.
Para além das representações humanas melhoradas, a física exacta dos vídeos é verdadeiramente impressionante.
E pensar que este vídeo é 100% gerado por IA, é uma loucura total as notícias que temos atualmente sobre vídeos com IA. #Runway Gen-3 🔥🔥 pic.twitter.com/FLC5TGfYzr
- Pierrick Chevallier | IA (@CharaspowerAI) 17 de junho de 2024
A Runway afirma que a Gen 3 Alpha irá melhorar os modos de controlo que permitem ao utilizador selecionar elementos específicos para movimento e controlos detalhados do movimento da câmara com "ferramentas futuras para um controlo mais preciso da estrutura, estilo e movimento".
O grau de controlo da câmara dá-nos uma ideia de quão perto estamos do fim da produção cinematográfica tradicional.
Sugestão: Câmara de mão em movimento rápido, luz de lanterna, numa parede branca e velha de um beco antigo, à noite, um graffiti preto que soletra "Runway".
(10/10) pic.twitter.com/xRreX33g0r
- Pista (@runwayml) 17 de junho de 2024
A OpenAI já tinha dado a entender que as preocupações com o alinhamento são uma das razões pelas quais ainda não lançou o Sora. A Runway diz que o Gen 3 Alpha vem com um novo conjunto de salvaguardas e C2PA, que permite que a proveniência do vídeo gerado seja rastreada.
Modelos gerais do mundo
A ideia de transformar texto em vídeos será do agrado da maioria dos utilizadores, mas a Runway diz que a Gen 3 Alpha representa um passo em direção a um objetivo diferente.
A Runway afirma: "Acreditamos que o próximo grande avanço na IA virá de sistemas que compreendem o mundo visual e a sua dinâmica, e é por isso que estamos a iniciar um novo esforço de investigação a longo prazo em torno daquilo a que chamamos modelos do mundo geral."
O treino de uma IA incorporada para navegar e interagir com um ambiente é muito mais rápido e económico quando é simulado. Para que a simulação seja útil, é necessário que represente com exatidão a física e o movimento dos ambientes do mundo real.
A Runway diz que estes modelos gerais do mundo "precisam de captar não só a dinâmica do mundo, mas também a dinâmica dos seus habitantes, o que implica também a construção de modelos realistas do comportamento humano".
O movimento coerente, a física, as características humanas e as emoções nos vídeos de demonstração da geração 3 são prova de um grande passo para tornar isto possível.
É quase certo que a OpenAI tem estado a trabalhar num Sora melhorado, mas com o Alfa Gen 3 da Runway, a corrida para o melhor gerador de vídeo com IA tornou-se muito mais competitiva.
Ainda não se sabe quando é que a Geração 3 Alfa será lançada, mas pode ver mais demonstrações aqui ou experimentar a geração 2 aqui para já.