Meta выпускает Ego-Exo4D, мультимодальный набор данных для восприятия

Для обучения моделей ИИ, подобных GPT-4, в основном использовались наборы данных, состоящие из текста и изображений. Мультимодальный набор данных восприятия Ego-Exo4D компании Meta предоставляет специалистам по исследованию данных новый богатый набор обучающих данных.

Вы можете научиться новому навыку, прочитав книгу, но гораздо проще, когда кто-то показывает вам, как это делается, и одновременно объясняет. Именно такую цель ставит перед собой команда FAIR (Fundamental Artificial Intelligence Research) компании Meta, создавая Ego-Exo4D.

Набор данных состоит из видеороликов с перспективой от первого лица (Ego) и от третьего лица (Exo), на которых люди выполняют различные виды квалифицированной человеческой деятельности. Это может быть что угодно: приготовление пищи, танцы, игра на музыкальных инструментах или ремонт велосипеда. Данные были собраны в 13 городах по всему миру 839 пользователями камер, которые записали 1422 часа видео.

Видео, снятые одновременно, затем дополняются дополнительными данными благодаря очкам Project Aria от Meta.

Очки Project Aria - это носимые компьютеры в форме очков. Они записывают видео и аудио, а также отслеживают движение глаз и информацию о местоположении пользователя. Очки также воспринимают позу головы и 3D-облака точек окружающей среды.

В результате получился набор данных, состоящий из одновременных видеозаписей выполнения задачи, с описанием действий от первого лица владельцами камер, а также отслеживанием головы и глаз человека, выполняющего задачу.

Представляем Ego-Exo4D - основополагающий набор данных и набор эталонов, ориентированных на квалифицированную человеческую деятельность, для поддержки исследований в области видеообучения и мультимодального восприятия. Это крупнейший публичный набор данных такого рода.

Подробнее ➡️ https://t.co/82OR4msehv pic.twitter.com/NTI1kdj1RN

- AI at Meta (@AIatMeta) 4 декабря 2023 года

Затем Meta добавила описания действий каждого пользователя камеры от третьего лица. Meta также наняла экспертов в различных областях, чтобы они добавили комментарии экспертов от третьего лица с критикой того, как человек на видео выполняет задание.

Собирая эгоцентрические и экзоцентрические виды, набор данных Ego-Exo4D может показать исследователям, как выглядят действия человека с разных точек зрения. Это может помочь им в разработке алгоритмов компьютерного зрения, способных распознавать действия человека с любой точки зрения.

Ego-Exo4D открывает новые возможности для обучения

Одним из ключевых препятствий на пути к созданию AGI или более эффективному обучению роботов является недостаток сенсорного восприятия, которым обладают компьютеры. У нас, как у людей, очень много сенсорных данных из окружающей среды, которые мы часто воспринимаем как должное при освоении новых навыков.

Ego-Exo4D станет чрезвычайно полезным ресурсом, который поможет преодолеть этот пробел.

Доктор Гедас Бертасиус, доцент кафедры компьютерных наук Университета Северной Каролины, сказал: "Ego-Exo4D - это не просто сбор данных, это изменение того, как ИИ понимает, воспринимает и учится. Благодаря ориентированному на человека обучению и перспективам ИИ может стать более полезным в нашей повседневной жизни, помогая нам так, как мы только можем себе представить".

Снимок обучающих данных Ego-Exo4D из примера ремонта велосипеда. Источник: Meta

Компания Meta надеется, что Ego-Exo4D "позволит роботам будущего получать представление о сложных ловких манипуляциях, наблюдая за работой опытных специалистов".

Этот набор данных в сочетании с очками Project Aria в скором времени также позволит создать по-настоящему иммерсивный опыт обучения для людей. Представьте, что вы выполняете задание, а ваши очки с помощью дополненной реальности (AR) накладывают на него обучающее видео или рассказывают о выполнении задания.

Вы можете учиться играть на фортепиано, и визуальное наложение покажет вам, куда должны двигаться ваши руки, а аудиосоветы будут звучать в реальном времени, пока вы это делаете. Или вы можете открыть капот своего автомобиля и получить руководство по поиску и устранению неполадок в двигателе.

Будет интересно посмотреть, будет ли Мета Концепция обучения Ego How-To будет способствовать более широкому распространению очков Project Aria, чем неудачный продукт Google Glass. О том, когда их можно будет приобрести, пока ничего не известно.

Мета создаст набор данных Ego-Exo4D доступен для скачивания до конца декабря.

Meta выпускает Ego-Exo4D, мультимодальный набор данных для восприятия

Ego-Exo4D открывает новые возможности для обучения

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Meta выпускает Ego-Exo4D, мультимодальный набор данных для восприятия

Ego-Exo4D открывает новые возможности для обучения

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI