A OpenAI apresenta o Sora, um modelo avançado de texto para vídeo

16 de fevereiro de 2024

A OpenAI revelou o Sora, um modelo avançado de texto para vídeo (TTV) que gera vídeos realistas de até 60 segundos a partir de uma mensagem de texto do utilizador.

Ultimamente, temos assistido a grandes avanços na criação de vídeos com IA. No mês passado, ficámos entusiasmados quando a Google nos deu uma demonstração de LumináriaO modelo TTV gera clips de vídeo de 5 segundos com excelente coerência e movimento.

Apenas algumas semanas depois, os impressionantes vídeos de demonstração gerados pelo Sora já fazem com que o Lumiere da Google pareça bastante pitoresco.

O Sora gera vídeos de alta fidelidade que podem incluir várias cenas com panorâmicas de câmara simuladas, respeitando rigorosamente as instruções complexas. Também pode gerar imagens, prolongar os vídeos para trás e para a frente e gerar um vídeo utilizando uma imagem como estímulo.

Parte do desempenho impressionante de Sora reside em coisas que tomamos por garantidas quando vemos um vídeo, mas que são difíceis de produzir para a IA.

Aqui está um exemplo de um vídeo que Sora criou a partir da pergunta: "Um trailer de um filme com as aventuras do homem do espaço de 30 anos que usa um capacete de motociclista de malha de lã vermelha, céu azul, deserto de sal, estilo cinematográfico, filmado em película de 35 mm, cores vivas".

https://youtu.be/twyhYQM9254

Este pequeno clip demonstra algumas das principais características de Sora que o tornam verdadeiramente especial.

  • O tema era bastante complexo e o vídeo gerado seguiu-o à risca.
  • Sora mantém a coerência da personagem. Mesmo quando a personagem desaparece de um quadro e reaparece, a sua aparência mantém-se consistente.
  • Sora mantém a permanência da imagem. Um objeto numa cena é retido em fotogramas posteriores durante a panorâmica ou durante mudanças de cena.
  • O vídeo gerado revela uma compreensão exacta da física e das alterações no ambiente. A iluminação, as sombras e as pegadas na salina são óptimos exemplos disso.

Sora não compreende apenas o significado das palavras no prompt, mas também como esses objectos interagem uns com os outros no mundo físico.

Aqui está outro grande exemplo do vídeo impressionante que Sora pode gerar.

https://youtu.be/g0jt6goVz04

A ideia para este vídeo era: "Uma mulher elegante caminha por uma rua de Tóquio cheia de néons brilhantes e sinais animados da cidade. Veste um casaco de cabedal preto, um vestido vermelho comprido, botas pretas e traz uma mala preta. Usa óculos de sol e batom vermelho. Caminha de forma confiante e casual. A rua é húmida e reflectora, criando um efeito de espelho das luzes coloridas. Muitos peões andam de um lado para o outro".

Um passo mais perto da AGI

Podemos ficar maravilhados com os vídeos, mas é com esta compreensão do mundo físico que a OpenAI está particularmente entusiasmada.

No Publicação no blogue da SoraSegundo a empresa, "o Sora serve de base para modelos capazes de compreender e simular o mundo real, uma capacidade que acreditamos ser um marco importante para alcançar a AGI".

Vários investigadores acreditam que a IA incorporada é necessária para alcançar a inteligência artificial geral (AGI). A incorporação da IA num robô capaz de sentir e explorar um ambiente físico é uma forma de o conseguir, mas que implica uma série de desafios práticos.

O Sora foi treinado com uma enorme quantidade de dados de vídeo e imagem, o que, segundo a OpenAI, é responsável pelas capacidades emergentes que o modelo apresenta na simulação de aspectos de pessoas, animais e ambientes do mundo físico.

A OpenAI afirma que Sora não foi explicitamente treinada na física dos objectos 3D, mas que as capacidades emergentes são "puramente fenómenos de escala".

Isto significa que Sora poderia eventualmente ser utilizada para simular com precisão um mundo digital com o qual uma IA poderia interagir sem a necessidade de ser incorporada num dispositivo físico como um robô.

De uma forma mais simplista, é isto que os investigadores chineses estão a tentar alcançar com o seu Bebé robô com IA chamado Tong Tong.

Por enquanto, temos de nos contentar com os vídeos de demonstração fornecidos pela OpenAI. A Sora só está a ser disponibilizada aos membros da equipa vermelha e a alguns artistas visuais, designers e realizadores para obter feedback e verificar o alinhamento do modelo.

Quando o Sora for lançado publicamente, será que poderemos ver os trabalhadores da indústria cinematográfica do SAG-AFTRA a tirar o pó dos seus cartazes de protesto?

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições