Den kinesiske tekst-til-video generator Kling udgivet for at konkurrere med Sora

7. juni 2024

  • Den kinesiske teknologivirksomhed Kuaishou Technology udgav en tekst-til-video-generator kaldet Kling
  • Kling genererer videoer på op til to minutter i 1080p-opløsning og 30 billeder i sekundet.
  • Mens Sora endnu ikke er udgivet, er Kling allerede tilgængelig som offentlig demo i Kina.

Den kinesiske teknologivirksomhed Kuaishou Technology har udgivet en tekst-til-video-generator (T2V) ved navn Kling, som kan konkurrere med OpenAI's Sora.

I februar imponerede OpenAI os med Sora Demovideoer som fik os alle til at lede febrilsk efter "tilmeld"-knappen. Fire måneder senere venter vi stadig på, at Sora bliver udgivet, uden at vi ved, hvornår det sker.

Beijing-baserede Kuaishou udvikler platforme til deling af indhold, som efter eget udsagn gør "produktion, distribution og forbrug af indhold hurtigt og nemt". Virksomhedens korte videoplatform, også kaldet Kuaishou, er kun overgået af TikTok med hensyn til gennemsnitlige daglige aktive brugere.

Det ville være meget nemmere at producere indhold til deres platforme, hvis de ikke skulle være afhængige af menneskeskabt indhold. Det kan være noget af motivationen bag udviklingen af T2V-værktøjet.

Kling forvandler tekstbeskeder til tidsmæssigt og rumligt sammenhængende videoer, der ser godt ud. Kuaishou siger Kling kan generere videoer på op til 2 minutter med en opløsning på 1080p og 30 billeder i sekundet.

Det er et minut længere end det, OpenAI siger, at Sora kan producere. Den anden store forskel er, at Kling er blevet frigivet til offentligheden, mens Sora stadig er hemmelig. Hvis du er i Kina eller har et kinesisk mobilnummer og en VPN, kan du ansøge om at prøve appen nu.

Ligesom Sora bruger Kling en diffusionstransformator-arkitektur. Den har også en stærk 3D-teknologi til rekonstruktion af ansigt og krop, som kan bruge et billede af hele kroppen som en ledetråd til at generere en video med jævne bevægelser af lemmerne.

Hvis du husker den lidt skræmmende video af Will Smith, der spiser spaghetti, fra de tidlige dage med AI-genereret video, vil du forstå, hvor fantastisk denne video genereret af Kling er.

De fleste af de imponerende demovideoer, hvor der er meget bevægelse involveret, er korte klip. De længere videoer er mere naturskønne med færre dynamiske elementer, hvilket kan antyde nogle af værktøjets begrænsninger.

Dette klip af en skiftende scene vist fra et togvindues perspektiv er ret imponerende.


De visuelle elementer, som AI historisk set har kæmpet med, er ting som fingre, tænder eller naturlige mundbevægelser. Her er et imponerende klip, som viser, at Kling får styr på disse ting på en meget naturlig måde.

Betaudgivelsen af Kling er på en måde en kommentar til den østlige vs. vestlige tilgang til AI. Mens Vesten diskuterer AI-sikkerhed, privatlivets fred og farerne ved desinformation, er Kina i fuld gang med udviklingen. Og det på trods af amerikanske sanktioner, der forsøger at bremse den.

Mens OpenAI forsøger at finde ud af, hvordan man gør Sora "sikker" eller politisk korrekt, bliver vi måske nødt til at se til Kina for at få et anstændigt T2V-værktøj i mangel af et, der er lavet i USA.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser