Компания OpenAI представила Sora - современную модель преобразования текста в видео (TTV), которая генерирует реалистичные видео продолжительностью до 60 секунд на основе текстовых подсказок пользователя.
В последнее время мы наблюдаем значительные успехи в области создания видео с помощью искусственного интеллекта. В прошлом месяце мы были в восторге, когда Google продемонстрировала нам LumiereМодель TTV позволяет генерировать 5-секундные видеоролики с отличной согласованностью и движением.
Прошло всего несколько недель, а впечатляющие демонстрационные ролики, созданные Sora, уже заставляют задуматься о Lumiere от Google.
Sora генерирует видео высокой достоверности, включающее несколько сцен с имитацией панорамирования камеры при точном следовании сложным подсказкам. Она также может генерировать изображения, продлевать видео вперед и назад и генерировать видео, используя изображение в качестве подсказки.
Некоторые из впечатляющих характеристик Sora связаны с тем, что мы считаем само собой разумеющимся при просмотре видео, но для искусственного интеллекта это сложно.
Вот пример видео, созданного Сорой по заданию: "Трейлер фильма о приключениях 30-летнего космического человека в красном шерстяном вязаном мотоциклетном шлеме, голубое небо, соляная пустыня, кинематографический стиль, снято на 35-миллиметровую пленку, яркие цвета".
https://youtu.be/twyhYQM9254
Этот короткий ролик демонстрирует несколько ключевых особенностей Sora, которые делают ее по-настоящему особенной.
- Задание было довольно сложным, и созданное видео полностью соответствовало ему.
- Сора сохраняет целостность персонажа. Даже когда персонаж исчезает из кадра и появляется вновь, его внешний вид остается неизменным.
- Sora сохраняет постоянство изображения. Объект в сцене сохраняется на последующих кадрах при панорамировании или смене сцены.
- Созданное видео демонстрирует точное понимание физики и изменений в окружающей среде. Освещение, тени и следы на солончаке - отличные тому примеры.
Sora не просто понимает, что означают слова в подсказке, она понимает, как эти объекты взаимодействуют друг с другом в физическом мире.
Вот еще один пример впечатляющего видео, которое может создать Sora.
https://youtu.be/g0jt6goVz04
Задание для этого видео было следующим: "Стильная женщина идет по токийской улице, залитой теплым светящимся неоном и анимированными городскими вывесками. На ней черная кожаная куртка, длинное красное платье, черные сапоги и черная сумочка. На ней солнцезащитные очки и красная помада. Она идет уверенно и непринужденно. Улица влажная и отражающая, что создает зеркальный эффект разноцветных огней. Много пешеходов".
На шаг ближе к AGI
Мы можем быть потрясены видеороликами, но именно такое понимание физического мира вызывает особый интерес у OpenAI.
В Запись в блоге SoraПо словам компании, "Sora служит основой для моделей, способных понимать и моделировать реальный мир, что, по нашему мнению, станет важной вехой в достижении AGI".
Некоторые исследователи считают, что воплощенный ИИ необходим для достижения искусственного интеллекта общего назначения (ИИОН). Встраивание ИИ в робота, который может чувствовать и исследовать физическую среду, - один из способов достижения этой цели, но он сопряжен с рядом практических проблем.
Sora была обучена на огромном количестве видео и изображений, что, по мнению OpenAI, и обусловило появление новых возможностей модели в моделировании людей, животных и окружающей среды из физического мира.
OpenAI утверждает, что Сору не обучали физике 3D-объектов, а возникающие способности - это "чисто масштабные явления".
Это означает, что Sora может быть использована для точного моделирования цифрового мира, с которым может взаимодействовать ИИ, без необходимости воплощения его в физическом устройстве, таком как робот.
В более упрощенном виде это то, чего пытаются добиться китайские исследователи с помощью своего Робот ИИ для малышей по имени Тонг Тонг.
Пока что нам придется довольствоваться демонстрационными видеороликами, предоставленными OpenAI. Сора доступна только членам красной команды и некоторым визуальным художникам, дизайнерам и режиссерам, чтобы получить обратную связь и проверить соответствие модели.
Как только Sora выйдет в свет, может быть, мы увидим, как работники киноиндустрии из SAG-AFTRA смахнут пыль со своих пикетных плакатов?