Meta lance V-JEPA, un modèle de vision prédictive

20 février 2024

Meta a lancé V-JEPA, un modèle de vision prédictive qui constitue la prochaine étape vers la vision de Yann LeCun, scientifique en chef de Meta AI, en matière d'intelligence artificielle avancée (AMI).

Pour que les machines dotées d'IA puissent interagir avec les objets du monde physique, elles doivent être formées, mais les méthodes conventionnelles sont très inefficaces. Elles utilisent des milliers d'exemples vidéo avec des codeurs d'images préformés, du texte ou des annotations humaines, pour qu'une machine puisse apprendre un seul concept, sans parler de compétences multiples.

V-JEPA, qui signifie Joint Embedding Predictive Architectures, est un modèle de vision conçu pour apprendre ces concepts de manière plus efficace.

LeCun a déclaré que "V-JEPA est une étape vers une compréhension plus approfondie du monde afin que les machines puissent parvenir à un raisonnement et à une planification plus généralisés".

V-JEPA apprend comment les objets du monde physique interagissent à peu près de la même manière que les autres. de la même manière que les enfants en bas âge. L'un des principaux moyens d'apprentissage consiste à remplir les blancs pour prédire les informations manquantes. Lorsqu'une personne passe derrière un écran et ressort de l'autre côté, notre cerveau remplit le vide en comprenant ce qui s'est passé derrière l'écran.

V-JEPA est un modèle non génératif qui apprend en prédisant les parties manquantes ou masquées d'une vidéo. Les modèles génératifs peuvent recréer un morceau de vidéo masqué pixel par pixel, mais ce n'est pas le cas de V-JEPA.

Il compare des représentations abstraites d'images non étiquetées plutôt que les pixels eux-mêmes. On présente à V-JEPA une vidéo dont une grande partie est masquée, avec juste assez d'éléments de la vidéo pour donner un certain contexte. Il est alors demandé au modèle de fournir une description abstraite de ce qui se passe dans l'espace masqué.

Au lieu d'être formé à une compétence spécifique, Meta explique "qu'il a utilisé une formation auto-supervisée sur une série de vidéos et a appris un certain nombre de choses sur la façon dont le monde fonctionne".

Évaluations gelées

Meta's document de recherche explique que l'un des éléments clés qui rend V-JEPA tellement plus efficace que d'autres modèles d'apprentissage de la vision est sa capacité à réaliser des "évaluations gelées".

Après avoir fait l'objet d'un apprentissage auto-supervisé avec de nombreuses données non étiquetées, le codeur et le prédicteur n'ont pas besoin d'une formation supplémentaire lors de l'apprentissage d'une nouvelle compétence. Le modèle pré-entraîné est gelé.

Auparavant, pour affiner un modèle afin d'apprendre une nouvelle compétence, il fallait mettre à jour les paramètres ou les poids de l'ensemble du modèle. Pour que V-JEPA puisse apprendre une nouvelle tâche, il suffit d'une petite quantité de données étiquetées et d'un petit ensemble de paramètres spécifiques à la tâche, optimisés à partir de l'épine dorsale gelée.

La capacité de V-JEPA à apprendre efficacement de nouvelles tâches est prometteuse pour le développement de l'IA incarnée. Elle pourrait être essentielle pour permettre aux machines d'être conscientes du contexte de leur environnement physique et de gérer des tâches de planification et de prise de décision séquentielle.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation