Meta a lancé V-JEPA, un modèle de vision prédictive qui constitue la prochaine étape vers la vision de Yann LeCun, scientifique en chef de Meta AI, en matière d'intelligence artificielle avancée (AMI).
Pour que les machines dotées d'IA puissent interagir avec les objets du monde physique, elles doivent être formées, mais les méthodes conventionnelles sont très inefficaces. Elles utilisent des milliers d'exemples vidéo avec des codeurs d'images préformés, du texte ou des annotations humaines, pour qu'une machine puisse apprendre un seul concept, sans parler de compétences multiples.
V-JEPA, qui signifie Joint Embedding Predictive Architectures, est un modèle de vision conçu pour apprendre ces concepts de manière plus efficace.
LeCun a déclaré que "V-JEPA est une étape vers une compréhension plus approfondie du monde afin que les machines puissent parvenir à un raisonnement et à une planification plus généralisés".
V-JEPA apprend comment les objets du monde physique interagissent à peu près de la même manière que les autres. de la même manière que les enfants en bas âge. L'un des principaux moyens d'apprentissage consiste à remplir les blancs pour prédire les informations manquantes. Lorsqu'une personne passe derrière un écran et ressort de l'autre côté, notre cerveau remplit le vide en comprenant ce qui s'est passé derrière l'écran.
V-JEPA est un modèle non génératif qui apprend en prédisant les parties manquantes ou masquées d'une vidéo. Les modèles génératifs peuvent recréer un morceau de vidéo masqué pixel par pixel, mais ce n'est pas le cas de V-JEPA.
Il compare des représentations abstraites d'images non étiquetées plutôt que les pixels eux-mêmes. On présente à V-JEPA une vidéo dont une grande partie est masquée, avec juste assez d'éléments de la vidéo pour donner un certain contexte. Il est alors demandé au modèle de fournir une description abstraite de ce qui se passe dans l'espace masqué.
Au lieu d'être formé à une compétence spécifique, Meta explique "qu'il a utilisé une formation auto-supervisée sur une série de vidéos et a appris un certain nombre de choses sur la façon dont le monde fonctionne".
Nous publions aujourd'hui V-JEPA, une méthode pour apprendre aux machines à comprendre et à modéliser le monde physique en regardant des vidéos. Ce travail est une autre étape importante vers @ylecunLes modèles d'IA qui utilisent une compréhension acquise du monde pour planifier, raisonner et... pic.twitter.com/5i6uNeFwJp
- AI at Meta (@AIatMeta) 15 février 2024
Évaluations gelées
Meta's document de recherche explique que l'un des éléments clés qui rend V-JEPA tellement plus efficace que d'autres modèles d'apprentissage de la vision est sa capacité à réaliser des "évaluations gelées".
Après avoir fait l'objet d'un apprentissage auto-supervisé avec de nombreuses données non étiquetées, le codeur et le prédicteur n'ont pas besoin d'une formation supplémentaire lors de l'apprentissage d'une nouvelle compétence. Le modèle pré-entraîné est gelé.
Auparavant, pour affiner un modèle afin d'apprendre une nouvelle compétence, il fallait mettre à jour les paramètres ou les poids de l'ensemble du modèle. Pour que V-JEPA puisse apprendre une nouvelle tâche, il suffit d'une petite quantité de données étiquetées et d'un petit ensemble de paramètres spécifiques à la tâche, optimisés à partir de l'épine dorsale gelée.
La capacité de V-JEPA à apprendre efficacement de nouvelles tâches est prometteuse pour le développement de l'IA incarnée. Elle pourrait être essentielle pour permettre aux machines d'être conscientes du contexte de leur environnement physique et de gérer des tâches de planification et de prise de décision séquentielle.