La división de investigación de Meta ha presentado SAM 2 (Segment Anything Model 2), un sistema de IA que supone un gran avance en el análisis de vídeo.
Este nuevo modelo amplía las capacidades de segmentación de imágenes de su predecesor SAM, aventurándose en el dominio más complejo del vídeo.
La segmentación de vídeo -la capacidad de identificar y rastrear objetos concretos en una escena en movimiento- es desde hace tiempo un reto para la IA.
Mientras que los humanos pueden seguir sin esfuerzo a un coche mientras se desplaza entre el tráfico o a una persona que camina entre la multitud, los sistemas de IA suelen tener dificultades. Este es un gran problema para coches sin conductor y otros vehículos autónomos (AV), que necesitan rastrear objetos 3D en movimiento en su entorno.
SAM 2 pretende salvar esta distancia, acercando la comprensión del vídeo por parte de la IA a la percepción a nivel humano.
El sistema puede identificar y rastrear prácticamente cualquier objeto a lo largo de un vídeo con una intervención mínima del usuario, a veces de un solo clic. Esto abre un mundo de posibilidades en campos que van desde el montaje de películas a la investigación científica.
Así es como Meta creó y probó SAM 2:
- El equipo creó una técnica denominada Segmentación Visual Inmediata (PVS), que permite a los usuarios guiar a la IA con sencillas indicaciones en cualquier fotograma de vídeo. Esto significa que el sistema puede adaptarse a una amplia gama de situaciones, desde seguir a una persona concreta en una multitud hasta seguir el movimiento del ala de un pájaro en vuelo.
- Construyeron una arquitectura de modelos que incluía componentes para procesar fotogramas individuales, almacenar información sobre los objetos a lo largo del tiempo y generar segmentaciones precisas.
- Un elemento clave es el módulo de memoria, que permite a SAM 2 mantener un seguimiento constante incluso cuando los objetos desaparecen temporalmente de la vista.
- Se creó un nuevo conjunto de datos masivo, con más de 50.000 vídeos y 35 millones de fotogramas etiquetados, que empequeñece los anteriores conjuntos de datos de segmentación de vídeo. T
- ste conjunto de datos, denominado SA-V, abarca un amplio espectro de tipos de objetos, tamaños y escenarios, lo que mejora la capacidad del modelo para generalizarse a nuevas situaciones.
- El modelo se sometió a un exhaustivo proceso de entrenamiento y pruebas en 17 conjuntos de datos de vídeo, desde grabaciones de cámaras de vigilancia hasta imágenes médicas.
- SAM 2 superó a los métodos más avanzados en tareas de segmentación semisupervisada de objetos de vídeo, logrando una mejora media de 7,5% en las puntuaciones J&F (una métrica estándar para la calidad de la segmentación).
Por encima de: La segmentación de imágenes para videoclips complejos segrega diferentes formas en cuestión de segundos.
- En la producción cinematográfica, SAM 2 podría agilizar el trabajo de efectos visuales y ahorrar tiempo en la posproducción.
- Los científicos podrían rastrear células en imágenes de microscopía o vigilar los cambios medioambientales en imágenes de satélite.
- SAM 2 podría mejorar la detección de objetos en situaciones de tráfico complejas.
- Los conservacionistas de la fauna salvaje podrían emplear SAM 2 para controlar las poblaciones de animales en vastas zonas
- En AR/VR, puede permitir interacciones más precisas con objetos virtuales en vídeo en directo.
Fiel al compromiso de Meta con la investigación abierta, SAM 2 se publica como software de código abierto.
Esto incluye no sólo el modelo, sino también el conjunto de datos utilizado para entrenarlo.
Los investigadores ya están estudiando formas de manejar vídeos más largos, mejorar el rendimiento en detalles finos y reducir la potencia de cálculo necesaria para ejecutar el modelo.
A medida que la tecnología de segmentación de imágenes madure, seguramente transformará la forma en que interactuamos con los contenidos de vídeo y los analizamos.
Desde hacer más accesibles las complejas tareas de edición hasta permitir nuevas formas de análisis visual, SAM 2 amplía los límites de la manipulación visual.