Компания Meta выпустила V-JEPA, модель предиктивного видения, которая является следующим шагом на пути к концепции продвинутого машинного интеллекта (AMI), разработанной главным научным сотрудником Meta Янном Лекуном.
Чтобы машины с искусственным интеллектом могли взаимодействовать с объектами в физическом мире, их необходимо обучать, но традиционные методы очень неэффективны. Они используют тысячи видеопримеров с предварительно обученными кодировщиками изображений, текстом или человеческими аннотациями, чтобы машина смогла освоить одно понятие, не говоря уже о нескольких навыках.
V-JEPA, что расшифровывается как Joint Embedding Predictive Architectures, - это модель зрения, разработанная для более эффективного изучения этих концепций.
По словам ЛеКуна, "V-JEPA - это шаг к более глубокому пониманию мира, чтобы машины могли более обобщенно рассуждать и планировать".
V-JEPA изучает, как объекты в физическом мире взаимодействуют друг с другом в значительной степени. так же, как и малыши.. Ключевая часть того, как мы учимся, - это заполнение пробелов, чтобы предсказать недостающую информацию. Когда человек заходит за экран и выходит с другой стороны, наш мозг заполняет пробел пониманием того, что произошло за экраном.
V-JEPA - это негенеративная модель, которая обучается, предсказывая отсутствующие или замаскированные части видео. Генеративные модели могут воссоздать замаскированный фрагмент видео пиксель за пикселем, но V-JEPA этого не делает.
Он сравнивает абстрактные представления немаркированных изображений, а не сами пиксели. V-JEPA представляет видео, большая часть которого замаскирована, но при этом остается лишь часть видео, чтобы дать некоторый контекст. Затем модель просят дать абстрактное описание того, что происходит в замаскированном пространстве.
Вместо того чтобы обучаться одному конкретному навыку, Мета говорит, что "она использовала самоконтроль при обучении на ряде видео и узнала множество вещей о том, как устроен мир".
Сегодня мы выпускаем V-JEPA, метод обучения машин пониманию и моделированию физического мира с помощью просмотра видео. Эта работа - еще один важный шаг на пути к @ylecunВ книге описано видение моделей ИИ, которые используют изученное понимание мира для планирования, рассуждения и... pic.twitter.com/5i6uNeFwJp
- AI at Meta (@AIatMeta) 15 февраля 2024 года
Замороженные оценки
Мета научная статья объясняет, что одна из ключевых вещей, которая делает V-JEPA намного более эффективной, чем некоторые другие модели обучения зрению, - это то, насколько хорошо она справляется с "замороженными оценками".
После самообучения с использованием большого количества немаркированных данных кодировщик и предсказатель не требуют дальнейшего обучения при освоении нового навыка. Предварительно обученная модель замораживается.
Раньше, если вы хотели точно настроить модель для обучения новому навыку, вам нужно было обновить параметры или веса всей модели. Для того чтобы V-JEPA смогла выучить новую задачу, ей требуется лишь небольшое количество помеченных данных и небольшой набор параметров, оптимизированных для конкретной задачи поверх замороженной основы.
Способность V-JEPA эффективно обучаться новым задачам является перспективной для развития воплощенного ИИ. Это может стать ключом к тому, чтобы дать машинам возможность контекстуально осознавать свое физическое окружение и решать задачи планирования и последовательного принятия решений.