Google revela Lumiere, um modelo de difusão de texto para vídeo

A Google Research apresentou o Lumiere, um modelo de difusão de texto para vídeo que cria vídeos extraordinariamente realistas a partir de texto ou imagens.

As imagens fixas geradas por ferramentas como Meio da viagem ou DALL-E são incríveis, mas o texto para vídeo (TTV) ficou compreensivelmente para trás e tem sido muito menos impressionante até agora.

Os modelos de TTV, como os da Pika Labs ou da Stable Video Diffusion, evoluíram muito nos últimos 12 meses, mas o realismo e a continuidade do movimento continuam a ser um pouco desajeitados.

O Lumiere representa um grande salto na TTV devido a uma nova abordagem para gerar vídeo que é espacial e temporalmente coerente. Por outras palavras, o objetivo é que as cenas em cada fotograma permaneçam visualmente coerentes e os movimentos sejam suaves.

O que é que o Lumiere pode fazer?

O Lumiere tem uma gama de funcionalidades de geração de vídeo, incluindo as seguintes:

Texto para vídeo - Introduza uma mensagem de texto e o Lumiere gera um clip de vídeo de 5 segundos composto por 80 fotogramas a 16 fotogramas por segundo.
Imagem para vídeo - O Lumiere utiliza uma imagem como estímulo e transforma-a num vídeo.
Geração estilizada - Uma imagem pode ser utilizada como uma referência de estilo. O Lumiere utiliza um prompt de texto para gerar um vídeo no estilo da imagem de referência.
Estilização de vídeo - O Lumiere pode editar um vídeo de origem para corresponder a um pedido de texto estilístico.
Cinemagrafias - Seleccione uma região numa imagem fixa e o Lumiere irá animar essa parte da imagem.
Pintura de vídeo - O Lumiere pode pegar numa cena de vídeo com máscara e pintá-la para completar o vídeo. Também pode editar o vídeo de origem, removendo ou substituindo elementos na cena.

O vídeo abaixo mostra alguns dos vídeos impressionantes que o Lumiere pode gerar.

Como é que o Lumiere o faz?

Os modelos de TTV existentes adoptam uma conceção em cascata em que um modelo de base gera um subconjunto de fotogramas-chave e, em seguida, utilizam um modelo de super-resolução temporal (TSR) para gerar dados para preencher as lacunas entre fotogramas.

Esta abordagem é eficiente em termos de memória, mas a tentativa de preencher as lacunas entre um conjunto de fotogramas-chave subamostrados resulta num vídeo com inconsistências temporais ou movimentos com falhas. Os fotogramas de baixa resolução são então aumentados utilizando um modelo de super-resolução espacial (SSR) em janelas não sobrepostas.

O Lumiere adopta uma abordagem diferente. Utiliza uma arquitetura Space-Time U-Net (STUNet) que aprende a reduzir a amostragem do sinal tanto no espaço como no tempo e processa todos os fotogramas de uma só vez.

Uma vez que não está apenas a passar um subconjunto de amostras de fotogramas-chave para um TSR, o Lumiere consegue um movimento globalmente coerente. Para obter o vídeo de alta resolução, o Lumiere aplica um modelo SSR em janelas sobrepostas e utiliza o MultiDiffusion para combinar as previsões num resultado coerente.

O Google Research realizou um estudo de utilizadores que demonstrou que os utilizadores preferiam maioritariamente os vídeos Lumiere a outros modelos de TTV.

Preferências dos utilizadores relativamente à qualidade do texto para o vídeo, ao alinhamento do vídeo com o texto e à qualidade da imagem para o vídeo. Fonte: Pesquisa do Google

O resultado final pode ser apenas um clip de 5 segundos, mas o realismo, a coerência visual e o movimento são melhores do que qualquer outra solução atualmente disponível. Atualmente, a maioria das outras soluções de TTV apenas gera clips de 3 segundos.

O Lumiere não lida com transições de cenas ou cenas de vídeo multi-fotografia, mas a funcionalidade multi-cena mais longa está quase de certeza na calha.

No Artigo de investigação LumiereA Google referiu que "existe um risco de utilização indevida para criar conteúdos falsos ou prejudiciais com a nossa tecnologia".

Esperemos que encontrem uma forma eficaz de colocar uma marca de água nos seus vídeos e evitar problemas de direitos de autor, para que possam lançar o Lumiere para que o possamos testar.

A Google revela o Lumiere, um modelo de difusão de texto para vídeo

O que é que o Lumiere pode fazer?

Como é que o Lumiere o faz?

Junte-se ao futuro

Eugene van der Watt

ARTIGOS RELACIONADOS

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

A Google revela o Lumiere, um modelo de difusão de texto para vídeo

O que é que o Lumiere pode fazer?

Como é que o Lumiere o faz?

Junte-se ao futuro

Eugene van der Watt

ARTIGOS RELACIONADOS

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

PDF GRATUITO EXCLUSIVOFique à frente com o DailyAI

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI