A Google Research apresentou o Lumiere, um modelo de difusão de texto para vídeo que cria vídeos extraordinariamente realistas a partir de texto ou imagens.
As imagens fixas geradas por ferramentas como Meio da viagem ou DALL-E são incríveis, mas o texto para vídeo (TTV) ficou compreensivelmente para trás e tem sido muito menos impressionante até agora.
Os modelos de TTV, como os da Pika Labs ou da Stable Video Diffusion, evoluíram muito nos últimos 12 meses, mas o realismo e a continuidade do movimento continuam a ser um pouco desajeitados.
O Lumiere representa um grande salto na TTV devido a uma nova abordagem para gerar vídeo que é espacial e temporalmente coerente. Por outras palavras, o objetivo é que as cenas em cada fotograma permaneçam visualmente coerentes e os movimentos sejam suaves.
O que é que o Lumiere pode fazer?
O Lumiere tem uma gama de funcionalidades de geração de vídeo, incluindo as seguintes:
- Texto para vídeo - Introduza uma mensagem de texto e o Lumiere gera um clip de vídeo de 5 segundos composto por 80 fotogramas a 16 fotogramas por segundo.
- Imagem para vídeo - O Lumiere utiliza uma imagem como estímulo e transforma-a num vídeo.
- Geração estilizada - Uma imagem pode ser utilizada como uma referência de estilo. O Lumiere utiliza um prompt de texto para gerar um vídeo no estilo da imagem de referência.
- Estilização de vídeo - O Lumiere pode editar um vídeo de origem para corresponder a um pedido de texto estilístico.
- Cinemagrafias - Seleccione uma região numa imagem fixa e o Lumiere irá animar essa parte da imagem.
- Pintura de vídeo - O Lumiere pode pegar numa cena de vídeo com máscara e pintá-la para completar o vídeo. Também pode editar o vídeo de origem, removendo ou substituindo elementos na cena.
O vídeo abaixo mostra alguns dos vídeos impressionantes que o Lumiere pode gerar.
Como é que o Lumiere o faz?
Os modelos de TTV existentes adoptam uma conceção em cascata em que um modelo de base gera um subconjunto de fotogramas-chave e, em seguida, utilizam um modelo de super-resolução temporal (TSR) para gerar dados para preencher as lacunas entre fotogramas.
Esta abordagem é eficiente em termos de memória, mas a tentativa de preencher as lacunas entre um conjunto de fotogramas-chave subamostrados resulta num vídeo com inconsistências temporais ou movimentos com falhas. Os fotogramas de baixa resolução são então aumentados utilizando um modelo de super-resolução espacial (SSR) em janelas não sobrepostas.
O Lumiere adopta uma abordagem diferente. Utiliza uma arquitetura Space-Time U-Net (STUNet) que aprende a reduzir a amostragem do sinal tanto no espaço como no tempo e processa todos os fotogramas de uma só vez.
Uma vez que não está apenas a passar um subconjunto de amostras de fotogramas-chave para um TSR, o Lumiere consegue um movimento globalmente coerente. Para obter o vídeo de alta resolução, o Lumiere aplica um modelo SSR em janelas sobrepostas e utiliza o MultiDiffusion para combinar as previsões num resultado coerente.
O Google Research realizou um estudo de utilizadores que demonstrou que os utilizadores preferiam maioritariamente os vídeos Lumiere a outros modelos de TTV.
O resultado final pode ser apenas um clip de 5 segundos, mas o realismo, a coerência visual e o movimento são melhores do que qualquer outra solução atualmente disponível. Atualmente, a maioria das outras soluções de TTV apenas gera clips de 3 segundos.
O Lumiere não lida com transições de cenas ou cenas de vídeo multi-fotografia, mas a funcionalidade multi-cena mais longa está quase de certeza na calha.
No Artigo de investigação LumiereA Google referiu que "existe um risco de utilização indevida para criar conteúdos falsos ou prejudiciais com a nossa tecnologia".
Esperemos que encontrem uma forma eficaz de colocar uma marca de água nos seus vídeos e evitar problemas de direitos de autor, para que possam lançar o Lumiere para que o possamos testar.