Китайская технологическая компания Kuaishou Technology выпустила генератор преобразования текста в видео (T2V) под названием Kling, который может составить конкуренцию Sora от OpenAI.
В феврале компания OpenAI поразила нас, представив Sora демонстрационные видеоролики которая заставила всех нас судорожно искать кнопку "подписаться". Прошло четыре месяца, а мы все еще ждем выхода Sora и не знаем, когда это произойдет.
Пекинская компания Kuaishou разрабатывает платформы для обмена контентом, которые, по ее словам, делают "производство, распространение и потребление контента быстрым и легким". Платформа коротких видеороликов компании, также называемая Kuaishou, уступает только TikTok по количеству среднесуточных активных пользователей.
Производство контента для своих платформ было бы намного проще, если бы не приходилось полагаться на контент, созданный людьми. Возможно, именно это послужило стимулом для разработки инструмента T2V.
Kling превращает текстовые подсказки во временные и пространственные видеоролики, которые выглядят великолепно. Kuaishou говорит Клинг может создавать видео продолжительностью до 2 минут с разрешением 1080p и частотой 30 кадров в секунду.
Это на минуту дольше, чем, по данным OpenAI, может выдать Sora. Еще одним важным отличием является то, что Kling уже выпущен в продажу, в то время как Sora все еще находится в секрете. Если вы находитесь в Китае или у вас есть китайский номер мобильного телефона и VPN, вы можете подать заявку и попробовать приложение прямо сейчас.
Как и Sora, Kling использует архитектуру диффузионного трансформатора. Он также оснащен мощной технологией 3D-реконструкции лица и тела, которая может использовать изображение всего тела в качестве подсказки для создания видео с плавными движениями конечностей.
Если вы помните немного ужасающее видео Уилла Смита, поедающего спагетти, с первых дней появления видео, созданных искусственным интеллектом, то вы оцените, насколько удивительным является это видео, созданное Kling.
Sora на OpenAI это безумие.
Но KWAI только что сбросил Sora-подобная модель под названием KLING, и люди сходят по ней с ума.
Вот 10 диких примеров, которые вы не должны пропустить:
1. Китаец сидит за столом и ест лапшу палочками.pic.twitter.com/MIV5IP3fyQ
- Сердитый Том (@AngryTomtweets) 6 июня 2024 года
Большинство впечатляющих демонстрационных видео, в которых задействовано много движения, - это короткие ролики. Более длинные ролики более живописны и содержат меньше динамических элементов, что может намекать на некоторые ограничения инструмента.
Этот ролик, показывающий меняющуюся сцену из окна поезда, весьма впечатляет.
2. Путешествовать на поезде, рассматривая всевозможные пейзажи из окнаpic.twitter.com/WqF9rlJxbh
- Сердитый Том (@AngryTomtweets) 6 июня 2024 года
Визуальные элементы, с которыми ИИ исторически не справляется, - это пальцы, зубы или естественные движения рта. Вот впечатляющий ролик, в котором Клинг демонстрирует, как они выглядят очень естественно.
3. Китайский мальчик в очках наслаждается вкусным чизбургером с закрытыми глазами в ресторане быстрого питанияpic.twitter.com/ZOCy0n3gTa
- Сердитый Том (@AngryTomtweets) 6 июня 2024 года
Выпуск бета-версии Kling в некотором роде является комментарием к подходу Востока и Запада к ИИ. Пока на Западе обсуждают безопасность ИИ, конфиденциальность и опасность дезинформации, Китай стремительно развивается. И это несмотря на санкции США, которые пытаются его затормозить.
Пока OpenAI пытается придумать, как сделать Sora "безопасной" или политически корректной, нам, возможно, придется обратиться к Китаю, чтобы получить достойный T2V-инструмент в отсутствие такового, сделанного в США.