DeepMind разрабатывает базовую модель для создания двухмерных игровых окружений

2 апреля 2024 года

  • DeepMind обучила базовую модель для генерации уровней 2D-игр по текстовым или графическим подсказкам
  • Эта модель, получившая название Genie, упрощает создание функциональных 2D-окружений.
  • Это также открывает перспективы для создания роботов, которые правильно воспринимают новую среду.
Игра с искусственным интеллектом

Genie от Google DeepMind - это генеративная модель, которая преобразует простые изображения или текстовые подсказки в динамичные интерактивные миры. 

Genie был обучен на обширном наборе данных, включающем более 200 000 часов игрового видео, в том числе геймплей 2D-платформеров и взаимодействие роботов в реальном мире. 

Этот обширный набор данных позволил Genie понять и сгенерировать физику, динамику и эстетику многочисленных сред и объектов.

Доработанная модель, задокументированная в научная статьясодержит 11 миллиардов параметров для создания интерактивных виртуальных миров на основе изображений в различных форматах или текстовых подсказок. 

Так, вы можете предоставить Genie изображение вашей гостиной или сада и превратить его в играбельный 2D платформенный уровень.

Или набросайте 2D-среду на листе бумаги и превратите ее в игровую среду.

DeepMind AI
Genie может функционировать как интерактивная среда, принимая различные подсказки, такие как сгенерированные изображения или нарисованные от руки эскизы. Пользователи могут направлять работу модели, предоставляя скрытые действия на каждом временном шаге, которые Genie использует для создания следующего кадра в последовательности с частотой 1 кадр/с. Источник: DeepMind через ArXiv (открытый доступ).

От других моделей мира Genie отличается тем, что позволяет пользователям взаимодействовать с созданным окружением покадрово.

Например, ниже вы можете увидеть, как Genie делает фотографии реальной окружающей среды и превращает их в двухмерные игровые уровни.

DeepMind AI
Genie может создавать игровые уровни на основе: а) других игровых уровней, б) нарисованных от руки эскизов и в) фотографий реального окружения. Посмотрите на игровые уровни (нижний ряд), созданные на основе изображений реального мира (верхний ряд). Источник: DeepMind.

Как работает Genie

Genie - это "базовая модель мира", состоящая из трех ключевых компонентов: пространственно-временного токенизатора видео, модели динамики с авторегрессией и простой, масштабируемой модели латентных действий (LAM).

Вот как это работает:

  1. Пространственно-временные трансформаторы: Центральное место в Genie занимают пространственно-временные (ST) трансформаторы, которые обрабатывают последовательности видеокадров. В отличие от традиционных трансформаторов, которые работают с текстом или статичными изображениями, ST-трансформаторы разработаны для понимания прогрессии визуальных данных во времени, что делает их идеальными для создания видео и динамического окружения.
  2. Латентная модель действия (LAM): Genie понимает и предсказывает действия в сгенерированных им мирах с помощью LAM. Он определяет потенциальные действия, которые могут происходить между кадрами видео, обучаясь набору "скрытых действий" непосредственно из визуальных данных. Это позволяет Genie управлять развитием событий в интерактивных средах, несмотря на отсутствие явных меток действий в обучающих данных.
  3. Токенизатор видео и модель динамики: Для управления видеоданными в Genie используется видеотокенизатор, который сжимает необработанные видеокадры в более удобный формат дискретных маркеров. После токенизации модель динамики предсказывает следующий набор токенов кадра, генерируя последующие кадры в интерактивной среде.

Команда DeepMind рассказала о Genie: "Genie может позволить большому количеству людей создавать свои собственные игры. Это может оказаться полезным для тех, кто хочет по-новому проявить свои творческие способности, например, для детей, которые смогут создавать собственные воображаемые миры".

В ходе эксперимента, когда Genie были представлены видео с реальными роботизированными руками, взаимодействующими с реальными объектами, он продемонстрировал удивительную способность расшифровывать действия, которые эти руки могут выполнять. Это свидетельствует о потенциальном применении в исследованиях в области робототехники. 

Тим Роктешель из команды Genie рассказал о неограниченном потенциале Genie: "Трудно предсказать, какие варианты использования будут реализованы. Мы надеемся, что такие проекты, как Genie, в конечном итоге дадут людям новые инструменты для выражения своего творчества". 

DeepMind осознавала риски, связанные с выпуском этой базовой модели, и заявила в статье: "Мы решили не выпускать контрольные точки обученной модели, набор данных для обучения модели или примеры из этих данных для сопровождения этой статьи или веб-сайта".

"Мы хотели бы иметь возможность и дальше взаимодействовать с сообществом исследователей (и видеоигр) и обеспечить уважительное, безопасное и ответственное отношение к любым будущим релизам подобного рода".

Использование игр для моделирования реальных приложений

Компания DeepMind использовала видеоигры в нескольких проектах по машинному обучению. 

Например, в 2021 году, Компания DeepMind создала XLandвиртуальная игровая площадка для тестирования подходов к обучению с подкреплением (RL) для агентов ИИ общего назначения. Здесь модели ИИ осваивали сотрудничество и решение проблем, выполняя такие задачи, как перемещение препятствий в открытых игровых средах. 

Затем, в прошлом месяце, SIMA (Scalable, Instructable, Multiworld Agent) был разработан для понимания и выполнения инструкций на человеческом языке в различных играх и сценариях. 

SIMA обучали с помощью девяти видеоигр, требующих различных навыков, от базовой навигации до пилотирования транспортных средств. 

Игровые среды представляют собой управляемую, масштабируемую "песочницу" для обучения и тестирования моделей ИИ.

Опыт DeepMind в области игр начинается с 2014-2015 годов, когда они разработали алгоритм, позволяющий побеждать людей в таких играх, как Pong и Space Invaders, не говоря уже о AlphaGo, который победил профессионального игрока Фань Хуэя на полноразмерной доске 19×19.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения