Kinesiska text-till-video-generatorn Kling lanseras för att konkurrera med Sora

7 juni 2024

  • Det kinesiska teknikföretaget Kuaishou Technology har släppt en text-till-video-generator som heter Kling
  • Kling genererar videor som är upp till två minuter långa med 1080p-upplösning och 30 bilder per sekund
  • Medan Sora ännu inte har släppts, finns Kling redan tillgänglig som en offentlig demo i Kina

Det kinesiska teknikföretaget Kuaishou Technology lanserade en text-till-video (T2V) generator kallad Kling som kan konkurrera med OpenAI:s Sora.

I februari imponerade OpenAI på oss med Sora Demovideor som fick oss alla att frenetiskt leta efter "registrera dig"-knappen. Fyra månader senare väntar vi fortfarande på att Sora ska släppas utan att veta när det kan ske.

Pekingbaserade Kuaishou utvecklar plattformar för innehållsdelning som enligt företaget gör "produktion, distribution och konsumtion av innehåll snabbt och enkelt". Bolagets plattform för korta videofilmer, som också kallas Kuaishou, är näst störst efter TikTok när det gäller genomsnittligt antal aktiva användare per dag.

Att producera innehåll för sina plattformar skulle vara mycket enklare om man inte behövde förlita sig på mänskligt genererat innehåll. Detta kan vara en del av motivationen bakom utvecklingen av T2V-verktyget.

Kling förvandlar textmeddelanden till temporalt och spatialt sammanhängande videor som ser bra ut. Kuaishou säger Kling kan generera videor på upp till 2 minuter med en upplösning på 1080p och 30 bilder per sekund.

Det är en minut längre än vad OpenAI säger att Sora kan producera. Den andra stora skillnaden är att Kling har släppts till allmänheten medan Sora fortfarande är under omslag. Om du är i Kina, eller har ett kinesiskt mobilnummer och ett VPN, kan du ansöka om att prova appen nu.

Precis som Sora använder Kling en diffusionstransformatorarkitektur. Den har också en kraftfull 3D-teknik för ansikts- och kroppsrekonstruktion som kan använda en helkroppsbild som utgångspunkt för att generera en video med mjuka extremitetsrörelser.

Om du minns den något skrämmande videon av Will Smith som äter spaghetti från de tidiga dagarna av AI-genererad video, kommer du att förstå hur fantastisk den här videon som genererats av Kling är.

De flesta av de imponerande demovideorna där mycket rörelse ingår är korta klipp. De längre videorna är mer natursköna med mindre dynamiska element, vilket kan antyda några av verktygets begränsningar.

Det här klippet av en föränderlig scen som visas från ett tågfönster är ganska imponerande.


De visuella element som AI historiskt sett har haft svårt för är saker som fingrar, tänder eller naturliga munrörelser. Här är ett imponerande klipp som visar hur Kling får till dessa på ett mycket naturligt sätt.

Betaversionen av Kling är på sätt och vis en kommentar till förhållandet mellan öst och väst när det gäller AI. Medan västvärlden debatterar AI-säkerhet, integritet och farorna med desinformation, går Kina framåt med utvecklingen. Och detta trots att USA:s sanktioner försöker bromsa utvecklingen.

Medan OpenAI försöker komma fram till hur Sora ska bli "säkert" eller politiskt korrekt, kan vi behöva vända oss till Kina för att få ett bra T2V-verktyg i avsaknad av ett som tillverkas i USA.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar