Das chinesische Technologieunternehmen Kuaishou Technology hat einen Text-to-Video-Generator (T2V) namens Kling veröffentlicht, der mit Sora von OpenAI konkurrieren könnte.
Im Februar begeisterte uns OpenAI mit Sora Demo-Videos die uns alle dazu brachte, verzweifelt nach dem "Anmelden"-Button zu suchen. Vier Monate später warten wir immer noch auf die Veröffentlichung von Sora, ohne zu wissen, wann das sein könnte.
Das in Peking ansässige Unternehmen Kuaishou entwickelt Plattformen zur gemeinsamen Nutzung von Inhalten, die nach eigenen Angaben "die Produktion, die Verbreitung und den Konsum von Inhalten schnell und einfach" machen. Die Kurzvideoplattform des Unternehmens, die ebenfalls Kuaishou heißt, ist nach TikTok die zweitgrößte Plattform mit durchschnittlich täglich aktiven Nutzern.
Die Produktion von Inhalten für ihre Plattformen wäre viel einfacher, wenn sie nicht auf von Menschen erstellte Inhalte angewiesen wäre. Dies könnte ein Grund für die Entwicklung des T2V-Tools sein.
Kling verwandelt Textaufforderungen in zeitlich und räumlich kohärente Videos, die großartig aussehen. Kuaishou sagt Klingeln kann Videos mit einer Länge von bis zu 2 Minuten bei einer Auflösung von 1080p und 30 Bildern pro Sekunde erstellen.
Das ist eine Minute länger als das, was Sora laut OpenAI schaffen kann. Das andere große Unterscheidungsmerkmal ist, dass Kling für die Öffentlichkeit freigegeben wurde, während Sora noch unter Verschluss gehalten wird. Wenn Sie in China leben oder eine chinesische Handynummer und ein VPN haben, können Sie sich jetzt anmelden, um die App zu testen.
Wie Sora verwendet auch Kling eine Diffusionstransformator-Architektur. Es verfügt auch über eine leistungsstarke 3D-Gesichts- und Körperrekonstruktionstechnologie, die ein Ganzkörperbild als Eingabeaufforderung verwenden kann, um ein Video mit sanften Gliedmaßenbewegungen zu erzeugen.
Wenn Sie sich an das etwas erschreckende Video von Will Smith erinnern, der Spaghetti isst, aus den frühen Tagen der KI-generierten Videos, dann werden Sie zu schätzen wissen, wie erstaunlich dieses von Kling generierte Video ist.
Sora von OpenAI ist wahnsinnig.
Aber KWAI hat gerade eine Sora-ähnliches Modell namens KLING, und die Leute sind ganz verrückt danach.
Hier sind 10 wilde Beispiele, die Sie nicht verpassen sollten:
1. Ein chinesischer Mann sitzt an einem Tisch und isst Nudeln mit Stäbchenpic.twitter.com/MIV5IP3fyQ
- Angry Tom (@AngryTomtweets) 6. Juni 2024
Die meisten der beeindruckenden Demo-Videos, in denen viel Bewegung vorkommt, sind kurze Clips. Die längeren Videos sind eher szenisch mit weniger dynamischen Elementen, was auf einige der Grenzen des Tools hinweisen könnte.
Dieser Clip, der eine sich verändernde Szene aus der Perspektive eines Zugfensters zeigt, ist ziemlich beeindruckend.
2. Mit dem Zug fahren und durch das Fenster alle möglichen Landschaften sehenpic.twitter.com/WqF9rlJxbh
- Angry Tom (@AngryTomtweets) 6. Juni 2024
Die visuellen Elemente, mit denen die KI in der Vergangenheit Schwierigkeiten hatte, sind Dinge wie Finger, Zähne oder natürliche Mundbewegungen. Hier ist ein beeindruckender Clip, der zeigt, wie Kling diese Dinge auf sehr natürliche Weise richtig macht.
3. Ein chinesischer Junge mit Brille genießt einen leckeren Cheeseburger mit geschlossenen Augen in einem Schnellrestaurantpic.twitter.com/ZOCy0n3gTa
- Angry Tom (@AngryTomtweets) 6. Juni 2024
Die Betaversion von Kling ist in gewisser Weise ein Kommentar zur Auseinandersetzung zwischen Ost und West in Bezug auf KI. Während der Westen über die Sicherheit von KI, den Datenschutz und die Gefahren der Desinformation diskutiert, treibt China die Entwicklung voran. Und das, obwohl die USA mit Sanktionen versuchen, die Entwicklung zu bremsen.
Während OpenAI versucht herauszufinden, wie man Sora "sicher" oder politisch korrekt machen kann, müssen wir vielleicht nach China schauen, um ein anständiges T2V-Tool zu bekommen, wenn es in den USA nicht hergestellt wird.