Le modèle SAM 2 de Meta permet une segmentation vidéo précise en quelques secondes

31 juillet 2024

  • Meta Research lance SAM 2, un modèle d'IA complexe pour la segmentation d'images
  • Il permet de segmenter des images complexes en quelques secondes et en quelques clics.
  • Cela pourrait transformer des domaines tels que le montage vidéo, la recherche scientifique et l'audiovisuel.
Méta IA

La division recherche de Meta a présenté SAM 2 (Segment Anything Model 2), un système d'intelligence artificielle qui marque une avancée considérable dans l'analyse vidéo.

Ce nouveau modèle développe les compétences de son prédécesseur SAM en matière de segmentation d'images, en s'aventurant dans le domaine plus complexe de la vidéo.

La segmentation vidéo - la capacité d'identifier et de suivre des objets spécifiques dans une scène en mouvement - est depuis longtemps un défi pour l'IA. 

Alors que les humains peuvent suivre sans effort une voiture dans la circulation ou une personne marchant dans une foule, les systèmes d'IA ont tendance à éprouver des difficultés. Il s'agit d'un problème majeur pour voitures sans conducteur et d'autres véhicules autonomes (AV), qui doivent suivre des objets 3D en mouvement dans leur environnement.

SAM 2 vise à combler ce fossé, en rapprochant la compréhension de la vidéo par l'IA de la perception humaine.

Le système peut identifier et suivre pratiquement n'importe quel objet dans une vidéo avec un minimum d'intervention de la part de l'utilisateur - parfois un simple clic. Cela ouvre un monde de possibilités dans des domaines allant du montage de films à la recherche scientifique.

Voici comment Meta a créé et testé SAM 2 :

  1. L'équipe a créé une technique appelée "Promptable Visual Segmentation" (PVS), qui permet aux utilisateurs de guider l'IA à l'aide de simples indices sur n'importe quelle image vidéo. Cela signifie que le système peut s'adapter à un large éventail de scénarios, qu'il s'agisse de suivre une personne spécifique dans une foule ou de suivre le mouvement de l'aile d'un oiseau en vol.
  2. Ils ont construit une architecture de modèle qui comprend des composants pour le traitement des images individuelles, le stockage d'informations sur les objets dans le temps et la génération de segmentations précises.
  3. Un élément clé est le module de mémoire, qui permet à SAM 2 de maintenir un suivi cohérent même lorsque des objets disparaissent temporairement de la vue.
  4. Un nouvel ensemble de données massif a été créé, contenant plus de 50 000 vidéos et 35 millions d'images étiquetées, ce qui éclipse les précédents ensembles de données de segmentation vidéo. T
  5. Cet ensemble de données, appelé SA-V, couvre un large éventail de types d'objets, de tailles et de scénarios, ce qui renforce la capacité du modèle à s'adapter à de nouvelles situations.
  6. Le modèle a fait l'objet d'une formation et de tests approfondis sur 17 ensembles de données vidéo divers, allant des séquences de caméras de surveillance à l'imagerie médicale.
  7. SAM 2 a surpassé les méthodes de pointe existantes dans les tâches de segmentation d'objets vidéo semi-supervisées, obtenant une amélioration moyenne de 7,5% dans les scores J&F (une mesure standard de la qualité de la segmentation).

Au-dessus: La segmentation d'images pour des clips vidéo complexes permet de séparer différentes formes en quelques secondes.

  • Dans la production cinématographique, SAM 2 pourrait rationaliser le travail sur les effets visuels, ce qui permettrait de gagner du temps en post-production.
  • Les scientifiques pourraient suivre des cellules dans des images microscopiques ou surveiller les changements environnementaux dans l'imagerie satellitaire.
  • Pour les AV, y compris les voitures sans conducteur, SAM 2 pourrait améliorer la détection d'objets dans des scénarios de circulation complexes
  • Les défenseurs de la faune et de la flore pourraient utiliser SAM 2 pour surveiller les populations animales dans de vastes zones.
  • Dans le domaine de l'AR/VR, il peut permettre des interactions plus précises avec des objets virtuels dans une vidéo en direct.

Fidèle à l'engagement de Meta en faveur de la recherche ouverte, SAM 2 est publié en tant que logiciel libre. 

Il s'agit non seulement du modèle, mais aussi de l'ensemble de données utilisé pour l'entraîner. 

Les chercheurs étudient déjà les moyens de traiter des vidéos plus longues, d'améliorer les performances sur les détails fins et de réduire la puissance de calcul nécessaire pour faire fonctionner le modèle.

Au fur et à mesure que la technologie de segmentation des images évolue, elle va certainement transformer la façon dont nous interagissons avec le contenu vidéo et dont nous l'analysons.

En rendant les tâches d'édition complexes plus accessibles et en permettant de nouvelles formes d'analyse visuelle, SAM 2 repousse les limites de la manipulation visuelle. 

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation