OpenAI представляет Sora, продвинутую модель преобразования текста в видео

16 февраля 2024 года

Компания OpenAI представила Sora - современную модель преобразования текста в видео (TTV), которая генерирует реалистичные видео продолжительностью до 60 секунд на основе текстовых подсказок пользователя.

В последнее время мы наблюдаем значительные успехи в области создания видео с помощью искусственного интеллекта. В прошлом месяце мы были в восторге, когда Google продемонстрировала нам LumiereМодель TTV позволяет генерировать 5-секундные видеоролики с отличной согласованностью и движением.

Прошло всего несколько недель, а впечатляющие демонстрационные ролики, созданные Sora, уже заставляют задуматься о Lumiere от Google.

Sora генерирует видео высокой достоверности, включающее несколько сцен с имитацией панорамирования камеры при точном следовании сложным подсказкам. Она также может генерировать изображения, продлевать видео вперед и назад и генерировать видео, используя изображение в качестве подсказки.

Некоторые из впечатляющих характеристик Sora связаны с тем, что мы считаем само собой разумеющимся при просмотре видео, но для искусственного интеллекта это сложно.

Вот пример видео, созданного Сорой по заданию: "Трейлер фильма о приключениях 30-летнего космического человека в красном шерстяном вязаном мотоциклетном шлеме, голубое небо, соляная пустыня, кинематографический стиль, снято на 35-миллиметровую пленку, яркие цвета".

https://youtu.be/twyhYQM9254

Этот короткий ролик демонстрирует несколько ключевых особенностей Sora, которые делают ее по-настоящему особенной.

  • Задание было довольно сложным, и созданное видео полностью соответствовало ему.
  • Сора сохраняет целостность персонажа. Даже когда персонаж исчезает из кадра и появляется вновь, его внешний вид остается неизменным.
  • Sora сохраняет постоянство изображения. Объект в сцене сохраняется на последующих кадрах при панорамировании или смене сцены.
  • Созданное видео демонстрирует точное понимание физики и изменений в окружающей среде. Освещение, тени и следы на солончаке - отличные тому примеры.

Sora не просто понимает, что означают слова в подсказке, она понимает, как эти объекты взаимодействуют друг с другом в физическом мире.

Вот еще один пример впечатляющего видео, которое может создать Sora.

https://youtu.be/g0jt6goVz04

Задание для этого видео было следующим: "Стильная женщина идет по токийской улице, залитой теплым светящимся неоном и анимированными городскими вывесками. На ней черная кожаная куртка, длинное красное платье, черные сапоги и черная сумочка. На ней солнцезащитные очки и красная помада. Она идет уверенно и непринужденно. Улица влажная и отражающая, что создает зеркальный эффект разноцветных огней. Много пешеходов".

На шаг ближе к AGI

Мы можем быть потрясены видеороликами, но именно такое понимание физического мира вызывает особый интерес у OpenAI.

В Запись в блоге SoraПо словам компании, "Sora служит основой для моделей, способных понимать и моделировать реальный мир, что, по нашему мнению, станет важной вехой в достижении AGI".

Некоторые исследователи считают, что воплощенный ИИ необходим для достижения искусственного интеллекта общего назначения (ИИОН). Встраивание ИИ в робота, который может чувствовать и исследовать физическую среду, - один из способов достижения этой цели, но он сопряжен с рядом практических проблем.

Sora была обучена на огромном количестве видео и изображений, что, по мнению OpenAI, и обусловило появление новых возможностей модели в моделировании людей, животных и окружающей среды из физического мира.

OpenAI утверждает, что Сору не обучали физике 3D-объектов, а возникающие способности - это "чисто масштабные явления".

Это означает, что Sora может быть использована для точного моделирования цифрового мира, с которым может взаимодействовать ИИ, без необходимости воплощения его в физическом устройстве, таком как робот.

В более упрощенном виде это то, чего пытаются добиться китайские исследователи с помощью своего Робот ИИ для малышей по имени Тонг Тонг.

Пока что нам придется довольствоваться демонстрационными видеороликами, предоставленными OpenAI. Сора доступна только членам красной команды и некоторым визуальным художникам, дизайнерам и режиссерам, чтобы получить обратную связь и проверить соответствие модели.

Как только Sora выйдет в свет, может быть, мы увидим, как работники киноиндустрии из SAG-AFTRA смахнут пыль со своих пикетных плакатов?

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения