Meta выпускает V-JEPA, прогностическую модель зрения

20 февраля 2024 года

Компания Meta выпустила V-JEPA, модель предиктивного видения, которая является следующим шагом на пути к концепции продвинутого машинного интеллекта (AMI), разработанной главным научным сотрудником Meta Янном Лекуном.

Чтобы машины с искусственным интеллектом могли взаимодействовать с объектами в физическом мире, их необходимо обучать, но традиционные методы очень неэффективны. Они используют тысячи видеопримеров с предварительно обученными кодировщиками изображений, текстом или человеческими аннотациями, чтобы машина смогла освоить одно понятие, не говоря уже о нескольких навыках.

V-JEPA, что расшифровывается как Joint Embedding Predictive Architectures, - это модель зрения, разработанная для более эффективного изучения этих концепций.

По словам ЛеКуна, "V-JEPA - это шаг к более глубокому пониманию мира, чтобы машины могли более обобщенно рассуждать и планировать".

V-JEPA изучает, как объекты в физическом мире взаимодействуют друг с другом в значительной степени. так же, как и малыши.. Ключевая часть того, как мы учимся, - это заполнение пробелов, чтобы предсказать недостающую информацию. Когда человек заходит за экран и выходит с другой стороны, наш мозг заполняет пробел пониманием того, что произошло за экраном.

V-JEPA - это негенеративная модель, которая обучается, предсказывая отсутствующие или замаскированные части видео. Генеративные модели могут воссоздать замаскированный фрагмент видео пиксель за пикселем, но V-JEPA этого не делает.

Он сравнивает абстрактные представления немаркированных изображений, а не сами пиксели. V-JEPA представляет видео, большая часть которого замаскирована, но при этом остается лишь часть видео, чтобы дать некоторый контекст. Затем модель просят дать абстрактное описание того, что происходит в замаскированном пространстве.

Вместо того чтобы обучаться одному конкретному навыку, Мета говорит, что "она использовала самоконтроль при обучении на ряде видео и узнала множество вещей о том, как устроен мир".

Замороженные оценки

Мета научная статья объясняет, что одна из ключевых вещей, которая делает V-JEPA намного более эффективной, чем некоторые другие модели обучения зрению, - это то, насколько хорошо она справляется с "замороженными оценками".

После самообучения с использованием большого количества немаркированных данных кодировщик и предсказатель не требуют дальнейшего обучения при освоении нового навыка. Предварительно обученная модель замораживается.

Раньше, если вы хотели точно настроить модель для обучения новому навыку, вам нужно было обновить параметры или веса всей модели. Для того чтобы V-JEPA смогла выучить новую задачу, ей требуется лишь небольшое количество помеченных данных и небольшой набор параметров, оптимизированных для конкретной задачи поверх замороженной основы.

Способность V-JEPA эффективно обучаться новым задачам является перспективной для развития воплощенного ИИ. Это может стать ключом к тому, чтобы дать машинам возможность контекстуально осознавать свое физическое окружение и решать задачи планирования и последовательного принятия решений.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения