A empresa tecnológica chinesa Kuaishou Technology lançou um gerador de texto para vídeo (T2V) chamado Kling que poderá rivalizar com o Sora da OpenAI.
Em fevereiro, a OpenAI impressionou-nos com Sora vídeos de demonstração que nos levou a procurar freneticamente o botão "inscrever-se". Quatro meses depois, continuamos à espera do lançamento de Sora sem sabermos quando é que isso vai acontecer.
A Kuaishou, sediada em Pequim, desenvolve plataformas de partilha de conteúdos que, segundo a empresa, tornam "a produção, a distribuição e o consumo de conteúdos rápidos e fáceis". A plataforma de vídeos curtos da empresa, também designada por Kuaishou, é a segunda maior em termos de utilizadores médios diários activos, a seguir ao TikTok.
A produção de conteúdos para as suas plataformas seria muito mais fácil se não tivesse de depender de conteúdos gerados por humanos. Esta pode ser uma parte da motivação por detrás do desenvolvimento da sua ferramenta T2V.
O Kling transforma mensagens de texto em vídeos coerentes em termos temporais e espaciais que têm um ótimo aspeto. Kuaishou diz Kling pode gerar vídeos de até 2 minutos com uma resolução de 1080p e 30 fotogramas por segundo.
É um minuto a mais do que o que a OpenAI diz que o Sora consegue produzir. O outro grande fator de diferenciação é o facto de o Kling ter sido lançado ao público, enquanto o Sora ainda está em segredo. Se estiver na China, ou se tiver um número de telemóvel chinês e uma VPN, pode candidatar-se a experimentar a aplicação agora.
Tal como o Sora, o Kling utiliza uma arquitetura de transformador de difusão. Possui também uma poderosa tecnologia de reconstrução facial e corporal em 3D que pode utilizar uma imagem de corpo inteiro como estímulo para gerar um vídeo com movimentos suaves dos membros.
Se se lembra do vídeo ligeiramente aterrador de Will Smith a comer esparguete dos primeiros dias de vídeo gerado por IA, então vai apreciar o quão espantoso é este vídeo gerado por Kling.
Sora por OpenAI é de loucos.
Mas a KWAI acabou de lançar um Sora-Um modelo parecido com o KLING, e as pessoas estão a ficar loucas com ele.
Aqui estão 10 exemplos selvagens que não vai querer perder:
1. Um chinês senta-se à mesa e come noodles com pauzinhospic.twitter.com/MIV5IP3fyQ
- Angry Tom (@AngryTomtweets) 6 de junho de 2024
A maior parte dos impressionantes vídeos de demonstração que envolvem muito movimento são clips curtos. Os vídeos mais longos são mais cénicos, com menos elementos dinâmicos, o que pode sugerir algumas das limitações da ferramenta.
Este clip de uma cena em mudança, mostrado da perspetiva de uma janela de comboio, é bastante impressionante.
2. Viajar de comboio e ver todo o tipo de paisagens pela janelapic.twitter.com/WqF9rlJxbh
- Angry Tom (@AngryTomtweets) 6 de junho de 2024
Os elementos visuais com que a IA tem tido dificuldades são coisas como dedos, dentes ou movimentos naturais da boca. Aqui está um clipe impressionante que mostra Kling a fazer isso de uma forma muito natural.
3. Um rapaz chinês de óculos saboreia um delicioso cheeseburger de olhos fechados num restaurante de fast foodpic.twitter.com/ZOCy0n3gTa
- Angry Tom (@AngryTomtweets) 6 de junho de 2024
O lançamento da versão beta do Kling é, de certa forma, um comentário sobre a abordagem da IA entre o Oriente e o Ocidente. Enquanto o Ocidente debate a segurança da IA, a privacidade e os perigos da desinformação, a China está a avançar com o desenvolvimento. E isto apesar das sanções dos EUA que tentam abrandar o processo.
Enquanto a OpenAI tenta descobrir como tornar a Sora "segura" ou politicamente correcta, talvez tenhamos de recorrer à China para nos dar uma ferramenta T2V decente, na ausência de uma feita nos EUA.