OpenAI представляет Sora, продвинутую модель преобразования текста в видео

Компания OpenAI представила Sora - современную модель преобразования текста в видео (TTV), которая генерирует реалистичные видео продолжительностью до 60 секунд на основе текстовых подсказок пользователя.

В последнее время мы наблюдаем значительные успехи в области создания видео с помощью искусственного интеллекта. В прошлом месяце мы были в восторге, когда Google продемонстрировала нам LumiereМодель TTV позволяет генерировать 5-секундные видеоролики с отличной согласованностью и движением.

Прошло всего несколько недель, а впечатляющие демонстрационные ролики, созданные Sora, уже заставляют задуматься о Lumiere от Google.

Sora генерирует видео высокой достоверности, включающее несколько сцен с имитацией панорамирования камеры при точном следовании сложным подсказкам. Она также может генерировать изображения, продлевать видео вперед и назад и генерировать видео, используя изображение в качестве подсказки.

Некоторые из впечатляющих характеристик Sora связаны с тем, что мы считаем само собой разумеющимся при просмотре видео, но для искусственного интеллекта это сложно.

Вот пример видео, созданного Сорой по заданию: "Трейлер фильма о приключениях 30-летнего космического человека в красном шерстяном вязаном мотоциклетном шлеме, голубое небо, соляная пустыня, кинематографический стиль, снято на 35-миллиметровую пленку, яркие цвета".

https://youtu.be/twyhYQM9254

Этот короткий ролик демонстрирует несколько ключевых особенностей Sora, которые делают ее по-настоящему особенной.

Задание было довольно сложным, и созданное видео полностью соответствовало ему.
Сора сохраняет целостность персонажа. Даже когда персонаж исчезает из кадра и появляется вновь, его внешний вид остается неизменным.
Sora сохраняет постоянство изображения. Объект в сцене сохраняется на последующих кадрах при панорамировании или смене сцены.
Созданное видео демонстрирует точное понимание физики и изменений в окружающей среде. Освещение, тени и следы на солончаке - отличные тому примеры.

Sora не просто понимает, что означают слова в подсказке, она понимает, как эти объекты взаимодействуют друг с другом в физическом мире.

Вот еще один пример впечатляющего видео, которое может создать Sora.

https://youtu.be/g0jt6goVz04

Задание для этого видео было следующим: "Стильная женщина идет по токийской улице, залитой теплым светящимся неоном и анимированными городскими вывесками. На ней черная кожаная куртка, длинное красное платье, черные сапоги и черная сумочка. На ней солнцезащитные очки и красная помада. Она идет уверенно и непринужденно. Улица влажная и отражающая, что создает зеркальный эффект разноцветных огней. Много пешеходов".

На шаг ближе к AGI

Мы можем быть потрясены видеороликами, но именно такое понимание физического мира вызывает особый интерес у OpenAI.

В Запись в блоге SoraПо словам компании, "Sora служит основой для моделей, способных понимать и моделировать реальный мир, что, по нашему мнению, станет важной вехой в достижении AGI".

Некоторые исследователи считают, что воплощенный ИИ необходим для достижения искусственного интеллекта общего назначения (ИИОН). Встраивание ИИ в робота, который может чувствовать и исследовать физическую среду, - один из способов достижения этой цели, но он сопряжен с рядом практических проблем.

Sora была обучена на огромном количестве видео и изображений, что, по мнению OpenAI, и обусловило появление новых возможностей модели в моделировании людей, животных и окружающей среды из физического мира.

OpenAI утверждает, что Сору не обучали физике 3D-объектов, а возникающие способности - это "чисто масштабные явления".

Это означает, что Sora может быть использована для точного моделирования цифрового мира, с которым может взаимодействовать ИИ, без необходимости воплощения его в физическом устройстве, таком как робот.

В более упрощенном виде это то, чего пытаются добиться китайские исследователи с помощью своего Робот ИИ для малышей по имени Тонг Тонг.

Пока что нам придется довольствоваться демонстрационными видеороликами, предоставленными OpenAI. Сора доступна только членам красной команды и некоторым визуальным художникам, дизайнерам и режиссерам, чтобы получить обратную связь и проверить соответствие модели.

Как только Sora выйдет в свет, может быть, мы увидим, как работники киноиндустрии из SAG-AFTRA смахнут пыль со своих пикетных плакатов?

OpenAI представляет Sora, продвинутую модель преобразования текста в видео

На шаг ближе к AGI

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

OpenAI представляет Sora, продвинутую модель преобразования текста в видео

На шаг ближе к AGI

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI