Det kinesiska teknikföretaget Kuaishou Technology lanserade en text-till-video (T2V) generator kallad Kling som kan konkurrera med OpenAI:s Sora.
I februari imponerade OpenAI på oss med Sora Demovideor som fick oss alla att frenetiskt leta efter "registrera dig"-knappen. Fyra månader senare väntar vi fortfarande på att Sora ska släppas utan att veta när det kan ske.
Pekingbaserade Kuaishou utvecklar plattformar för innehållsdelning som enligt företaget gör "produktion, distribution och konsumtion av innehåll snabbt och enkelt". Bolagets plattform för korta videofilmer, som också kallas Kuaishou, är näst störst efter TikTok när det gäller genomsnittligt antal aktiva användare per dag.
Att producera innehåll för sina plattformar skulle vara mycket enklare om man inte behövde förlita sig på mänskligt genererat innehåll. Detta kan vara en del av motivationen bakom utvecklingen av T2V-verktyget.
Kling förvandlar textmeddelanden till temporalt och spatialt sammanhängande videor som ser bra ut. Kuaishou säger Kling kan generera videor på upp till 2 minuter med en upplösning på 1080p och 30 bilder per sekund.
Det är en minut längre än vad OpenAI säger att Sora kan producera. Den andra stora skillnaden är att Kling har släppts till allmänheten medan Sora fortfarande är under omslag. Om du är i Kina, eller har ett kinesiskt mobilnummer och ett VPN, kan du ansöka om att prova appen nu.
Precis som Sora använder Kling en diffusionstransformatorarkitektur. Den har också en kraftfull 3D-teknik för ansikts- och kroppsrekonstruktion som kan använda en helkroppsbild som utgångspunkt för att generera en video med mjuka extremitetsrörelser.
Om du minns den något skrämmande videon av Will Smith som äter spaghetti från de tidiga dagarna av AI-genererad video, kommer du att förstå hur fantastisk den här videon som genererats av Kling är.
Sora av OpenAI är galen.
Men KWAI släppte just en Sora-liknande modell som heter KLING, och folk är som galna över den.
Här är 10 vilda exempel som du inte vill missa:
1. En kinesisk man sitter vid ett bord och äter nudlar med ätpinnarpic.twitter.com/MIV5IP3fyQ
- Arga Tom (@AngryTomtweets) 6 juni 2024
De flesta av de imponerande demovideorna där mycket rörelse ingår är korta klipp. De längre videorna är mer natursköna med mindre dynamiska element, vilket kan antyda några av verktygets begränsningar.
Det här klippet av en föränderlig scen som visas från ett tågfönster är ganska imponerande.
2. Resa med tåg och se alla möjliga landskap genom fönstretpic.twitter.com/WqF9rlJxbh
- Arga Tom (@AngryTomtweets) 6 juni 2024
De visuella element som AI historiskt sett har haft svårt för är saker som fingrar, tänder eller naturliga munrörelser. Här är ett imponerande klipp som visar hur Kling får till dessa på ett mycket naturligt sätt.
3. En kinesisk pojke med glasögon avnjuter en utsökt cheeseburgare med slutna ögon på en snabbmatsrestaurangpic.twitter.com/ZOCy0n3gTa
- Arga Tom (@AngryTomtweets) 6 juni 2024
Betaversionen av Kling är på sätt och vis en kommentar till förhållandet mellan öst och väst när det gäller AI. Medan västvärlden debatterar AI-säkerhet, integritet och farorna med desinformation, går Kina framåt med utvecklingen. Och detta trots att USA:s sanktioner försöker bromsa utvecklingen.
Medan OpenAI försöker komma fram till hur Sora ska bli "säkert" eller politiskt korrekt, kan vi behöva vända oss till Kina för att få ett bra T2V-verktyg i avsaknad av ett som tillverkas i USA.