Den kinesiske teknologivirksomhed Kuaishou Technology har udgivet en tekst-til-video-generator (T2V) ved navn Kling, som kan konkurrere med OpenAI's Sora.
I februar imponerede OpenAI os med Sora Demovideoer som fik os alle til at lede febrilsk efter "tilmeld"-knappen. Fire måneder senere venter vi stadig på, at Sora bliver udgivet, uden at vi ved, hvornår det sker.
Beijing-baserede Kuaishou udvikler platforme til deling af indhold, som efter eget udsagn gør "produktion, distribution og forbrug af indhold hurtigt og nemt". Virksomhedens korte videoplatform, også kaldet Kuaishou, er kun overgået af TikTok med hensyn til gennemsnitlige daglige aktive brugere.
Det ville være meget nemmere at producere indhold til deres platforme, hvis de ikke skulle være afhængige af menneskeskabt indhold. Det kan være noget af motivationen bag udviklingen af T2V-værktøjet.
Kling forvandler tekstbeskeder til tidsmæssigt og rumligt sammenhængende videoer, der ser godt ud. Kuaishou siger Kling kan generere videoer på op til 2 minutter med en opløsning på 1080p og 30 billeder i sekundet.
Det er et minut længere end det, OpenAI siger, at Sora kan producere. Den anden store forskel er, at Kling er blevet frigivet til offentligheden, mens Sora stadig er hemmelig. Hvis du er i Kina eller har et kinesisk mobilnummer og en VPN, kan du ansøge om at prøve appen nu.
Ligesom Sora bruger Kling en diffusionstransformator-arkitektur. Den har også en stærk 3D-teknologi til rekonstruktion af ansigt og krop, som kan bruge et billede af hele kroppen som en ledetråd til at generere en video med jævne bevægelser af lemmerne.
Hvis du husker den lidt skræmmende video af Will Smith, der spiser spaghetti, fra de tidlige dage med AI-genereret video, vil du forstå, hvor fantastisk denne video genereret af Kling er.
Sora af OpenAI er vanvittig.
Men KWAI har lige sluppet en Sora-lignende model kaldet KLING, og folk er vilde med den.
Her er 10 vilde eksempler, du ikke vil gå glip af:
1. En kinesisk mand sidder ved et bord og spiser nudler med spisepinde.pic.twitter.com/MIV5IP3fyQ
- Vred Tom (@AngryTomtweets) 6. juni 2024
De fleste af de imponerende demovideoer, hvor der er meget bevægelse involveret, er korte klip. De længere videoer er mere naturskønne med færre dynamiske elementer, hvilket kan antyde nogle af værktøjets begrænsninger.
Dette klip af en skiftende scene vist fra et togvindues perspektiv er ret imponerende.
2. At rejse med tog og se alle mulige landskaber gennem vinduetpic.twitter.com/WqF9rlJxbh
- Vred Tom (@AngryTomtweets) 6. juni 2024
De visuelle elementer, som AI historisk set har kæmpet med, er ting som fingre, tænder eller naturlige mundbevægelser. Her er et imponerende klip, som viser, at Kling får styr på disse ting på en meget naturlig måde.
3. En kinesisk dreng med briller nyder en lækker cheeseburger med lukkede øjne på en fastfood-restaurant.pic.twitter.com/ZOCy0n3gTa
- Vred Tom (@AngryTomtweets) 6. juni 2024
Betaudgivelsen af Kling er på en måde en kommentar til den østlige vs. vestlige tilgang til AI. Mens Vesten diskuterer AI-sikkerhed, privatlivets fred og farerne ved desinformation, er Kina i fuld gang med udviklingen. Og det på trods af amerikanske sanktioner, der forsøger at bremse den.
Mens OpenAI forsøger at finde ud af, hvordan man gør Sora "sikker" eller politisk korrekt, bliver vi måske nødt til at se til Kina for at få et anstændigt T2V-værktøj i mangel af et, der er lavet i USA.