L'azienda tecnologica cinese Kuaishou Technology ha rilasciato un generatore di testo-video (T2V) chiamato Kling che potrebbe rivaleggiare con Sora di OpenAI.
A febbraio, OpenAI ci ha stupito con Sora video dimostrativi che ci ha fatto cercare freneticamente il pulsante "iscriviti". Quattro mesi dopo, stiamo ancora aspettando l'uscita di Sora senza sapere quando potrebbe avvenire.
Kuaishou, con sede a Pechino, sviluppa piattaforme di condivisione di contenuti che, a suo dire, rendono "la produzione, la distribuzione e il consumo di contenuti facili e veloci". La piattaforma di video brevi dell'azienda, chiamata anch'essa Kuaishou, è seconda solo a TikTok in termini di utenti attivi medi giornalieri.
Produrre contenuti per le sue piattaforme sarebbe molto più facile se non dovesse affidarsi a contenuti generati dall'uomo. Questa potrebbe essere una delle motivazioni alla base dello sviluppo dello strumento T2V.
Kling trasforma i messaggi di testo in video coerenti dal punto di vista temporale e spaziale e di grande effetto. Kuaishou dice Kling può generare video fino a 2 minuti con una risoluzione di 1080p e 30 fotogrammi al secondo.
Si tratta di un minuto in più rispetto a quanto OpenAI afferma che Sora è in grado di produrre. L'altro grande elemento di differenziazione è che Kling è stato rilasciato al pubblico mentre Sora è ancora sotto segreto. Se vi trovate in Cina o avete un numero di cellulare cinese e una VPN, potete provare l'applicazione fin da ora.
Come Sora, Kling utilizza un'architettura a trasformatori di diffusione. Dispone inoltre di una potente tecnologia di ricostruzione 3D del volto e del corpo, in grado di utilizzare un'immagine del corpo intero come suggerimento per generare un video con movimenti fluidi degli arti.
Se ricordate il video un po' terrificante di Will Smith che mangia gli spaghetti agli albori dei video generati dall'intelligenza artificiale, allora apprezzerete quanto sia sorprendente questo video generato da Kling.
Sora da OpenAI è folle.
Ma KWAI ha appena lanciato un Sora-modello simile a KLING, e la gente ne va matta.
Ecco 10 esempi selvaggi da non perdere:
1. Un uomo cinese si siede a un tavolo e mangia i noodles con le bacchette.pic.twitter.com/MIV5IP3fyQ
- Angry Tom (@AngryTomtweets) 6 giugno 2024
La maggior parte degli impressionanti video dimostrativi in cui sono coinvolti molti movimenti sono clip brevi. I video più lunghi sono più scenografici e con meno elementi dinamici, il che potrebbe indicare alcuni limiti dello strumento.
Questo filmato di una scena in evoluzione mostrata dalla prospettiva del finestrino del treno è piuttosto impressionante.
2. Viaggiare in treno, osservando dal finestrino ogni tipo di paesaggiopic.twitter.com/WqF9rlJxbh
- Angry Tom (@AngryTomtweets) 6 giugno 2024
Gli elementi visivi con cui l'intelligenza artificiale ha storicamente faticato sono le dita, i denti o i movimenti naturali della bocca. Ecco una clip impressionante che mostra come Kling riesca a riprodurre questi elementi in modo molto naturale.
3. Un ragazzo cinese con gli occhiali si gusta un delizioso cheeseburger a occhi chiusi in un fast foodpic.twitter.com/ZOCy0n3gTa
- Angry Tom (@AngryTomtweets) 6 giugno 2024
Il rilascio della versione beta di Kling è per certi versi un commento sull'approccio all'IA tra Oriente e Occidente. Mentre l'Occidente discute sulla sicurezza dell'IA, sulla privacy e sui pericoli della disinformazione, la Cina procede spedita nello sviluppo. E questo nonostante le sanzioni degli Stati Uniti che cercano di rallentarlo.
Mentre OpenAI cerca di capire come rendere Sora "sicuro" o politicamente corretto, potremmo dover guardare alla Cina per avere uno strumento T2V decente in assenza di uno strumento made in USA.