Компания Runway представила свой новейший генератор видео из текста в текст (T2V) под названием Gen 3 Alpha, и демонстрационные ролики намекают на то, что это может быть лучший генератор видео с искусственным интеллектом.
OpenAI's Sora поразила нас несколько месяцев назад, но до сих пор нет никаких сведений о том, когда (и будет ли) она выпущена. Runway уже предоставляет бесплатный и платный доступ к своему инструменту предыдущего поколения Gen 2 T2V.
Gen 2 делает неплохие видеоролики, но он немного неудачен и часто генерирует странную анатомию или неуклюжие движения при создании людей.
Gen 3 Alpha обеспечивает гиперреалистичное видео с плавными движениями и целостными моделями людей.
Runway говорит: "Gen-3 Alpha отлично справляется с созданием выразительных человеческих персонажей с широким диапазоном действий, жестов и эмоций, открывая новые возможности для повествования".
Представляем Gen-3 Alpha: Новая базовая модель Runway для генерации видео.
Gen-3 Alpha может создавать высокодетализированные видеоролики со сложной сменой сцен, широким выбором кинематографических решений и подробными художественными направлениями.https://t.co/YQNE3eqoWf
(1/10) pic.twitter.com/VjEG2ocLZ8
- Подиум (@runwayml) 17 июня 2024 года
Улучшенная точность сопровождается и повышением скорости: максимальная длина 10-секундного ролика составляет всего 90 секунд. Предельная продолжительность 10-секундного ролика такая же, как у Sora, в два раза больше, чем у Luma, и в три раза больше, чем у Runway Gen 2.
Помимо улучшенного представления людей, впечатляет точная физика видеороликов.
А если учесть, что это видео 100% сгенерировано искусственным интеллектом, то это полное безумие, что мы имеем о видео с искусственным интеллектом в наши дни. #Runway Быт-3 🔥🔥🔥 pic.twitter.com/FLC5TGfYzr
- Пьеррик Шевалье | IA (@CharaspowerAI) 17 июня 2024 года
По словам Runway, в Gen 3 Alpha появятся улучшенные режимы управления, позволяющие пользователю выбирать конкретные элементы для движения, а также детальные элементы управления движением камеры с "новыми инструментами для более тонкого контроля над структурой, стилем и движением".
Степень контроля камеры дает представление о том, насколько близко мы находимся к конец традиционного кинопроизводства.
Задача: Ручная камера быстро движется, свет фонарика, на белой стене в старом переулке ночью черное граффити с надписью "Подиум".
(10/10) pic.twitter.com/xRreX33g0r
- Подиум (@runwayml) 17 июня 2024 года
OpenAI ранее намекала, что опасения по поводу согласования - одна из причин, по которой она еще не выпустила Sora. Runway утверждает, что Gen 3 Alpha поставляется с новым набором защитных средств и C2PA, позволяющим отслеживать происхождение сгенерированного видео.
Общие модели мира
Идея превращения текста в видео понравится большинству пользователей, но Runway утверждает, что Gen 3 Alpha - это шаг к другой цели.
Runway говорит: "Мы считаем, что следующее значительное продвижение в области ИИ будет достигнуто благодаря системам, которые понимают визуальный мир и его динамику, поэтому мы начинаем новое долгосрочное исследование, посвященное тому, что мы называем моделями общего мира".
Обучение воплощенного ИИ навигации и взаимодействию с окружением происходит гораздо быстрее и дешевле, если оно смоделировано. Чтобы симуляция была полезной, она должна точно отображать физику и движение реальной среды.
Runway говорит, что эти общие модели мира "должны отражать не только динамику мира, но и динамику его обитателей, что предполагает также построение реалистичных моделей человеческого поведения".
Согласованность движений, физики, человеческих черт и эмоций в демонстрационных видео Gen 3 свидетельствует о большом шаге к тому, чтобы сделать это возможным.
OpenAI почти наверняка работает над обновленной Сорой, но с выходом Runway Gen 3 Alpha гонка за звание лучшего генератора видео с искусственным интеллектом стала гораздо более конкурентной.
О сроках выхода Gen 3 Alpha пока ничего не известно, но вы можете Смотрите другие демонстрации здесь или экспериментировать с Gen 2 здесь пока что.