A Google revela o Lumiere, um modelo de difusão de texto para vídeo

24 de janeiro de 2024

A Google Research apresentou o Lumiere, um modelo de difusão de texto para vídeo que cria vídeos extraordinariamente realistas a partir de texto ou imagens.

As imagens fixas geradas por ferramentas como Meio da viagem ou DALL-E são incríveis, mas o texto para vídeo (TTV) ficou compreensivelmente para trás e tem sido muito menos impressionante até agora.

Os modelos de TTV, como os da Pika Labs ou da Stable Video Diffusion, evoluíram muito nos últimos 12 meses, mas o realismo e a continuidade do movimento continuam a ser um pouco desajeitados.

O Lumiere representa um grande salto na TTV devido a uma nova abordagem para gerar vídeo que é espacial e temporalmente coerente. Por outras palavras, o objetivo é que as cenas em cada fotograma permaneçam visualmente coerentes e os movimentos sejam suaves.

O que é que o Lumiere pode fazer?

O Lumiere tem uma gama de funcionalidades de geração de vídeo, incluindo as seguintes:

  • Texto para vídeo - Introduza uma mensagem de texto e o Lumiere gera um clip de vídeo de 5 segundos composto por 80 fotogramas a 16 fotogramas por segundo.
  • Imagem para vídeo - O Lumiere utiliza uma imagem como estímulo e transforma-a num vídeo.
  • Geração estilizada - Uma imagem pode ser utilizada como uma referência de estilo. O Lumiere utiliza um prompt de texto para gerar um vídeo no estilo da imagem de referência.
  • Estilização de vídeo - O Lumiere pode editar um vídeo de origem para corresponder a um pedido de texto estilístico.
  • Cinemagrafias - Seleccione uma região numa imagem fixa e o Lumiere irá animar essa parte da imagem.
  • Pintura de vídeo - O Lumiere pode pegar numa cena de vídeo com máscara e pintá-la para completar o vídeo. Também pode editar o vídeo de origem, removendo ou substituindo elementos na cena.

O vídeo abaixo mostra alguns dos vídeos impressionantes que o Lumiere pode gerar.

Como é que o Lumiere o faz?

Os modelos de TTV existentes adoptam uma conceção em cascata em que um modelo de base gera um subconjunto de fotogramas-chave e, em seguida, utilizam um modelo de super-resolução temporal (TSR) para gerar dados para preencher as lacunas entre fotogramas.

Esta abordagem é eficiente em termos de memória, mas a tentativa de preencher as lacunas entre um conjunto de fotogramas-chave subamostrados resulta num vídeo com inconsistências temporais ou movimentos com falhas. Os fotogramas de baixa resolução são então aumentados utilizando um modelo de super-resolução espacial (SSR) em janelas não sobrepostas.

O Lumiere adopta uma abordagem diferente. Utiliza uma arquitetura Space-Time U-Net (STUNet) que aprende a reduzir a amostragem do sinal tanto no espaço como no tempo e processa todos os fotogramas de uma só vez.

Uma vez que não está apenas a passar um subconjunto de amostras de fotogramas-chave para um TSR, o Lumiere consegue um movimento globalmente coerente. Para obter o vídeo de alta resolução, o Lumiere aplica um modelo SSR em janelas sobrepostas e utiliza o MultiDiffusion para combinar as previsões num resultado coerente.

O Google Research realizou um estudo de utilizadores que demonstrou que os utilizadores preferiam maioritariamente os vídeos Lumiere a outros modelos de TTV.

Preferências dos utilizadores relativamente à qualidade do texto para o vídeo, ao alinhamento do vídeo com o texto e à qualidade da imagem para o vídeo. Fonte: Pesquisa do Google

O resultado final pode ser apenas um clip de 5 segundos, mas o realismo, a coerência visual e o movimento são melhores do que qualquer outra solução atualmente disponível. Atualmente, a maioria das outras soluções de TTV apenas gera clips de 3 segundos.

O Lumiere não lida com transições de cenas ou cenas de vídeo multi-fotografia, mas a funcionalidade multi-cena mais longa está quase de certeza na calha.

No Artigo de investigação LumiereA Google referiu que "existe um risco de utilização indevida para criar conteúdos falsos ou prejudiciais com a nossa tecnologia".

Esperemos que encontrem uma forma eficaz de colocar uma marca de água nos seus vídeos e evitar problemas de direitos de autor, para que possam lançar o Lumiere para que o possamos testar.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições