Представьте себе ИИ, который не просто понимает команды, но и применяет их, как это делает человек, в массиве смоделированных 3D-окружений.
Такова цель проекта DeepMind (Scalable, Instructable, Multiworld Agent (SIMA)).
В отличие от традиционного ИИ, который может преуспеть в решении отдельных задач, таких как стратегические игры или решение конкретных проблем, агенты SIMA обучаются интерпретировать инструкции на человеческом языке и преобразовывать их в действия с помощью клавиатуры и мыши, имитируя взаимодействие человека с компьютером.
Это означает, что, независимо от того, какая задача стоит перед SIMA - навигация по цифровому ландшафту, решение головоломок или взаимодействие с объектами в игре, - она должна понимать и выполнять эти команды с той же интуицией и адаптивностью, что и человек.
Представляем SIMA: первый универсальный ИИ-агент, выполняющий инструкции на естественном языке в широком спектре 3D виртуальных сред и видеоигр. 🕹️
Он может выполнять задачи, похожие на человеческие, и превосходит агента, обученного только в одной среде. 🧵 https://t.co/qz3IxzUpto pic.twitter.com/02Q6AkW4uq
- Google DeepMind (@GoogleDeepMind) 13 марта 2024 года
Основу проекта составляет огромный и разнообразный набор данных об игровом процессе человека в исследовательских средах и коммерческих видеоиграх.
SIMA прошла обучение и тестирование на выбор девять видеоигр, созданных в сотрудничестве с восемью игровыми студиями, включая такие известные игры, как No Man's Sky и Teardown. Каждая игра требует от SIMA различных навыков, от базовой навигации и сбора ресурсов до более сложных действий, таких как ремесленничество и пилотирование космического корабля.
Обучение SIMA включало четыре исследовательские среды для оценки навыков физического взаимодействия и манипулирования объектами.
С точки зрения архитектуры, SIMA использует предварительно обученные модели видения и предсказания видео, точно настроенные на специфические 3D параметры своего игрового портфолио.
В отличие от традиционных игровых ИИ, SIMA не требует доступа к исходному коду или пользовательских API. Он оперирует изображениями на экране и инструкциями пользователя, используя для выполнения задач действия клавиатуры и мыши.
На этапе оценки SIMA продемонстрировала владение 600 базовыми навыками, включающими навигацию, взаимодействие с объектами и использование меню.
Отличительной чертой SIMA является ее универсальность. Этот ИИ не обучается для освоения какой-то одной игры или решения определенного набора задач.
Вместо этого DeepMind учит его быть адаптируемым, понимать инструкции и действовать в соответствии с ними в разных виртуальных мирах.
Тим Харли из DeepMind пояснил: "Это пока еще очень исследовательский проект", но в будущем "можно представить, что когда-нибудь агенты вроде SIMA будут играть рядом с вами в игры вместе с вами и с вашими друзьями".
SIMA нужны только изображения, предоставляемые 3D-средой, и инструкции на естественном языке, которые дает пользователь. 🖱️
С помощью мыши и клавиатуры он оценивает 600 навыков, охватывающих такие области, как навигация и взаимодействие с объектами - например, "повернуть налево" или "срубить дерево"... pic.twitter.com/PEPfLZv2o0
- Google DeepMind (@GoogleDeepMind) 13 марта 2024 года
SIMA овладевает искусством понимания и выполнения наших инструкций, обосновывая язык в восприятии и действии.
DeepMind имеет богатое игровое наследие, восходящее к AlphaGo в 2014 году, которая впоследствии обыграла нескольких известных игроков в знаменитую сложную азиатскую игру Го.
Однако, SIMA идет дальше видеоигр, приближаясь к мечте о действительно интеллектуальных, обучаемых Агенты искусственного интеллекта которые стирают границы между человеческим и машинным пониманием.