Det kinesiske teknologiselskapet Kuaishou Technology lanserte en tekst-til-video (T2V)-generator kalt Kling, som kan konkurrere med OpenAIs Sora.
I februar imponerte OpenAI oss med Sora demovideoer som fikk oss alle til å lete febrilsk etter "registrer deg"-knappen. Fire måneder senere venter vi fortsatt på at Sora skal lanseres, uten at vi vet noe om når det kan skje.
Beijing-baserte Kuaishou utvikler plattformer for deling av innhold som de sier gjør "innholdsproduksjon, distribusjon og konsum raskt og enkelt". Selskapets kortvideoplattform, også kalt Kuaishou, ligger på andreplass etter TikTok når det gjelder gjennomsnittlig antall aktive brukere per dag.
Det ville vært mye enklere å produsere innhold til plattformene hvis man ikke var avhengig av menneskegenerert innhold. Dette kan være noe av motivasjonen bak utviklingen av T2V-verktøyet.
Kling forvandler tekstmeldinger til tidsmessig og romlig sammenhengende videoer som ser flotte ut. Kuaishou sier Kling kan generere videoer på opptil 2 minutter med en oppløsning på 1080p og 30 bilder per sekund.
Det er ett minutt lenger enn det OpenAI sier Sora kan produsere. Den andre store forskjellen er at Kling har blitt lansert for offentligheten, mens Sora fortsatt er hemmelig. Hvis du er i Kina, eller har et kinesisk mobilnummer og et VPN, kan du søke om å prøve appen nå.
I likhet med Sora bruker Kling en diffusjonstransformatorarkitektur. Den har også en kraftig 3D-teknologi for ansikts- og kroppsrekonstruksjon som kan bruke et helkroppsbilde som en ledetekst for å generere en video med jevne bevegelser av lemmer.
Hvis du husker den litt skremmende videoen av Will Smith som spiser spaghetti fra de første dagene med AI-genererte videoer, vil du sette pris på hvor fantastisk denne videoen generert av Kling er.
Sora av OpenAI er galskap.
Men KWAI har nettopp sluppet en Sora-lignende modell kalt KLING, og folk er helt gale etter den.
Her er 10 ville eksempler du ikke vil gå glipp av:
1. En kinesisk mann sitter ved et bord og spiser nudler med spisepinnerpic.twitter.com/MIV5IP3fyQ
- Angry Tom (@AngryTomtweets) 6. juni 2024
De fleste av de imponerende demovideoene med mye bevegelse er korte klipp. De lengre videoene er mer naturskjønne med færre dynamiske elementer, noe som kan antyde noen av begrensningene ved verktøyet.
Dette klippet av en scene i endring vist fra et togvindu er ganske imponerende.
2. Å reise med tog og se alle slags landskap gjennom vinduetpic.twitter.com/WqF9rlJxbh
- Angry Tom (@AngryTomtweets) 6. juni 2024
De visuelle elementene som AI historisk sett har slitt med, er ting som fingre, tenner eller naturlige munnbevegelser. Her er et imponerende klipp som viser at Kling får dette til på en veldig naturlig måte.
3. En kinesisk gutt med briller nyter en deilig cheeseburger med lukkede øyne på en gatekjøkkenrestaurantpic.twitter.com/ZOCy0n3gTa
- Angry Tom (@AngryTomtweets) 6. juni 2024
Betaversjonen av Kling er på sett og vis en kommentar til forholdet mellom øst og vest når det gjelder AI. Mens Vesten diskuterer AI-sikkerhet, personvern og farene ved desinformasjon, går Kina i bresjen med utviklingen. Og dette til tross for amerikanske sanksjoner som prøver å bremse utviklingen.
Mens OpenAI prøver å finne ut hvordan Sora kan gjøres "trygg" eller politisk korrekt, må vi kanskje se til Kina for å få et anstendig T2V-verktøy i mangel av et som er laget i USA.