Het Chinese technologiebedrijf Kuaishou Technology heeft een tekst-naar-video (T2V) generator uitgebracht met de naam Kling die zou kunnen concurreren met OpenAI's Sora.
In februari verbaasde OpenAI ons met Sora demonstratievideo's waardoor we allemaal wanhopig op zoek waren naar de "meld je aan"-knop. Vier maanden later wachten we nog steeds op de release van Sora, maar we weten nog steeds niet wanneer dat zal gebeuren.
Het in Beijing gevestigde Kuaishou ontwikkelt platforms voor het delen van content die naar eigen zeggen "contentproductie, -distributie en -consumptie snel en eenvoudig" maken. Het korte videoplatform van het bedrijf, dat ook Kuaishou heet, is na TikTok de tweede in termen van gemiddelde dagelijks actieve gebruikers.
Het zou een stuk eenvoudiger zijn om inhoud te produceren voor de platformen als het niet afhankelijk zou zijn van door mensen gegenereerde inhoud. Dit kan een deel van de motivatie zijn achter de ontwikkeling van de T2V-tool.
Kling zet tekstaanwijzingen om in temporele en ruimtelijk coherente video's die er geweldig uitzien. Kuaishou zegt Kling kan video's tot 2 minuten maken met een resolutie van 1080p en 30 frames per seconde.
Dat is een minuut langer dan wat OpenAI zegt dat Sora kan produceren. Het andere grote verschil is dat Kling is vrijgegeven voor het publiek terwijl Sora nog steeds geheim is. Als je in China bent of een Chinees mobiel nummer en een VPN hebt, kun je de app nu uitproberen.
Net als Sora gebruikt Kling een diffusietransformatorarchitectuur. Het heeft ook krachtige 3D gezichts- en lichaamsreconstructietechnologie die een volledig lichaamsbeeld kan gebruiken als geheugensteuntje om een video te genereren met vloeiende bewegingen van de ledematen.
Als je je de ietwat angstaanjagende video van Will Smith die spaghetti eet nog herinnert uit de begindagen van de door AI gegenereerde video, dan zul je begrijpen hoe geweldig deze door Kling gegenereerde video is.
Sora door OpenAI is krankzinnig.
Maar KWAI heeft net een Sora-achtig model dat KLING heet, en mensen zijn er helemaal weg van.
Hier zijn 10 wilde voorbeelden die je niet wilt missen:
1. Een Chinese man zit aan tafel en eet noedels met stokjes.pic.twitter.com/MIV5IP3fyQ
- Boze Tom (@AngryTomtweets) 6 juni 2024
De meeste indrukwekkende demonstratievideo's met veel beweging zijn korte clips. De langere video's zijn meer landschappelijk met minder dynamische elementen, wat een aanwijzing kan zijn voor de beperkingen van de tool.
Deze clip van een veranderende scène vanuit het perspectief van een treinraampje is behoorlijk indrukwekkend.
2. Reizen met de trein, allerlei landschappen bekijken door het raampic.twitter.com/WqF9rlJxbh
- Boze Tom (@AngryTomtweets) 6 juni 2024
De visuele elementen waar AI in het verleden moeite mee heeft gehad zijn dingen als vingers, tanden of natuurlijke mondbewegingen. Hier is een indrukwekkend filmpje waarin te zien is hoe Kling dit op een heel natuurlijke manier voor elkaar krijgt.
3. Een Chinese jongen met bril geniet met zijn ogen dicht van een heerlijke cheeseburger in een fastfoodrestaurant.pic.twitter.com/ZOCy0n3gTa
- Boze Tom (@AngryTomtweets) 6 juni 2024
De bètaversie van Kling is in zekere zin een commentaar op de Oost versus West benadering van AI. Terwijl het Westen debatteert over AI-veiligheid, privacy en de gevaren van desinformatie, gaat China razendsnel vooruit met de ontwikkeling. En dat ondanks Amerikaanse sancties die het land proberen af te remmen.
Terwijl OpenAI probeert uit te zoeken hoe we Sora "veilig" of politiek correct kunnen maken, moeten we misschien naar China kijken om ons een fatsoenlijk T2V-hulpmiddel te geven als er geen is dat in de VS wordt gemaakt.