Den kinesiske tekst-til-video-generatoren Kling lanseres for å konkurrere med Sora

7. juni 2024

  • Det kinesiske teknologiselskapet Kuaishou Technology har lansert en tekst-til-video-generator kalt Kling
  • Kling genererer videoer på opptil to minutter med en oppløsning på 1080p og 30 bilder per sekund
  • Mens Sora ennå ikke er lansert, er Kling allerede tilgjengelig som en offentlig demo i Kina

Det kinesiske teknologiselskapet Kuaishou Technology lanserte en tekst-til-video (T2V)-generator kalt Kling, som kan konkurrere med OpenAIs Sora.

I februar imponerte OpenAI oss med Sora demovideoer som fikk oss alle til å lete febrilsk etter "registrer deg"-knappen. Fire måneder senere venter vi fortsatt på at Sora skal lanseres, uten at vi vet noe om når det kan skje.

Beijing-baserte Kuaishou utvikler plattformer for deling av innhold som de sier gjør "innholdsproduksjon, distribusjon og konsum raskt og enkelt". Selskapets kortvideoplattform, også kalt Kuaishou, ligger på andreplass etter TikTok når det gjelder gjennomsnittlig antall aktive brukere per dag.

Det ville vært mye enklere å produsere innhold til plattformene hvis man ikke var avhengig av menneskegenerert innhold. Dette kan være noe av motivasjonen bak utviklingen av T2V-verktøyet.

Kling forvandler tekstmeldinger til tidsmessig og romlig sammenhengende videoer som ser flotte ut. Kuaishou sier Kling kan generere videoer på opptil 2 minutter med en oppløsning på 1080p og 30 bilder per sekund.

Det er ett minutt lenger enn det OpenAI sier Sora kan produsere. Den andre store forskjellen er at Kling har blitt lansert for offentligheten, mens Sora fortsatt er hemmelig. Hvis du er i Kina, eller har et kinesisk mobilnummer og et VPN, kan du søke om å prøve appen nå.

I likhet med Sora bruker Kling en diffusjonstransformatorarkitektur. Den har også en kraftig 3D-teknologi for ansikts- og kroppsrekonstruksjon som kan bruke et helkroppsbilde som en ledetekst for å generere en video med jevne bevegelser av lemmer.

Hvis du husker den litt skremmende videoen av Will Smith som spiser spaghetti fra de første dagene med AI-genererte videoer, vil du sette pris på hvor fantastisk denne videoen generert av Kling er.

De fleste av de imponerende demovideoene med mye bevegelse er korte klipp. De lengre videoene er mer naturskjønne med færre dynamiske elementer, noe som kan antyde noen av begrensningene ved verktøyet.

Dette klippet av en scene i endring vist fra et togvindu er ganske imponerende.


De visuelle elementene som AI historisk sett har slitt med, er ting som fingre, tenner eller naturlige munnbevegelser. Her er et imponerende klipp som viser at Kling får dette til på en veldig naturlig måte.

Betaversjonen av Kling er på sett og vis en kommentar til forholdet mellom øst og vest når det gjelder AI. Mens Vesten diskuterer AI-sikkerhet, personvern og farene ved desinformasjon, går Kina i bresjen med utviklingen. Og dette til tross for amerikanske sanksjoner som prøver å bremse utviklingen.

Mens OpenAI prøver å finne ut hvordan Sora kan gjøres "trygg" eller politisk korrekt, må vi kanskje se til Kina for å få et anstendig T2V-verktøy i mangel av et som er laget i USA.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser