Genie от Google DeepMind - это генеративная модель, которая преобразует простые изображения или текстовые подсказки в динамичные интерактивные миры.
Genie был обучен на обширном наборе данных, включающем более 200 000 часов игрового видео, в том числе геймплей 2D-платформеров и взаимодействие роботов в реальном мире.
Этот обширный набор данных позволил Genie понять и сгенерировать физику, динамику и эстетику многочисленных сред и объектов.
Доработанная модель, задокументированная в научная статьясодержит 11 миллиардов параметров для создания интерактивных виртуальных миров на основе изображений в различных форматах или текстовых подсказок.
Так, вы можете предоставить Genie изображение вашей гостиной или сада и превратить его в играбельный 2D платформенный уровень.
Или набросайте 2D-среду на листе бумаги и превратите ее в игровую среду.
От других моделей мира Genie отличается тем, что позволяет пользователям взаимодействовать с созданным окружением покадрово.
Например, ниже вы можете увидеть, как Genie делает фотографии реальной окружающей среды и превращает их в двухмерные игровые уровни.
Как работает Genie
Genie - это "базовая модель мира", состоящая из трех ключевых компонентов: пространственно-временного токенизатора видео, модели динамики с авторегрессией и простой, масштабируемой модели латентных действий (LAM).
Вот как это работает:
- Пространственно-временные трансформаторы: Центральное место в Genie занимают пространственно-временные (ST) трансформаторы, которые обрабатывают последовательности видеокадров. В отличие от традиционных трансформаторов, которые работают с текстом или статичными изображениями, ST-трансформаторы разработаны для понимания прогрессии визуальных данных во времени, что делает их идеальными для создания видео и динамического окружения.
- Латентная модель действия (LAM): Genie понимает и предсказывает действия в сгенерированных им мирах с помощью LAM. Он определяет потенциальные действия, которые могут происходить между кадрами видео, обучаясь набору "скрытых действий" непосредственно из визуальных данных. Это позволяет Genie управлять развитием событий в интерактивных средах, несмотря на отсутствие явных меток действий в обучающих данных.
- Токенизатор видео и модель динамики: Для управления видеоданными в Genie используется видеотокенизатор, который сжимает необработанные видеокадры в более удобный формат дискретных маркеров. После токенизации модель динамики предсказывает следующий набор токенов кадра, генерируя последующие кадры в интерактивной среде.
Команда DeepMind рассказала о Genie: "Genie может позволить большому количеству людей создавать свои собственные игры. Это может оказаться полезным для тех, кто хочет по-новому проявить свои творческие способности, например, для детей, которые смогут создавать собственные воображаемые миры".
В ходе эксперимента, когда Genie были представлены видео с реальными роботизированными руками, взаимодействующими с реальными объектами, он продемонстрировал удивительную способность расшифровывать действия, которые эти руки могут выполнять. Это свидетельствует о потенциальном применении в исследованиях в области робототехники.
Тим Роктешель из команды Genie рассказал о неограниченном потенциале Genie: "Трудно предсказать, какие варианты использования будут реализованы. Мы надеемся, что такие проекты, как Genie, в конечном итоге дадут людям новые инструменты для выражения своего творчества".
DeepMind осознавала риски, связанные с выпуском этой базовой модели, и заявила в статье: "Мы решили не выпускать контрольные точки обученной модели, набор данных для обучения модели или примеры из этих данных для сопровождения этой статьи или веб-сайта".
"Мы хотели бы иметь возможность и дальше взаимодействовать с сообществом исследователей (и видеоигр) и обеспечить уважительное, безопасное и ответственное отношение к любым будущим релизам подобного рода".
Использование игр для моделирования реальных приложений
Компания DeepMind использовала видеоигры в нескольких проектах по машинному обучению.
Например, в 2021 году, Компания DeepMind создала XLandвиртуальная игровая площадка для тестирования подходов к обучению с подкреплением (RL) для агентов ИИ общего назначения. Здесь модели ИИ осваивали сотрудничество и решение проблем, выполняя такие задачи, как перемещение препятствий в открытых игровых средах.
Затем, в прошлом месяце, SIMA (Scalable, Instructable, Multiworld Agent) был разработан для понимания и выполнения инструкций на человеческом языке в различных играх и сценариях.
SIMA обучали с помощью девяти видеоигр, требующих различных навыков, от базовой навигации до пилотирования транспортных средств.
Игровые среды представляют собой управляемую, масштабируемую "песочницу" для обучения и тестирования моделей ИИ.
Опыт DeepMind в области игр начинается с 2014-2015 годов, когда они разработали алгоритм, позволяющий побеждать людей в таких играх, как Pong и Space Invaders, не говоря уже о AlphaGo, который победил профессионального игрока Фань Хуэя на полноразмерной доске 19×19.