Meta lanza V-JEPA, un modelo de visión predictiva

20 de febrero de 2024

Meta ha lanzado V-JEPA, un modelo de visión predictiva que constituye el siguiente paso hacia la visión de la inteligencia artificial avanzada (IAM) del científico jefe de IA de Meta, Yann LeCun.

Para que las máquinas dotadas de IA interactúen con objetos del mundo físico, es necesario entrenarlas, pero los métodos convencionales son muy ineficaces. Utilizan miles de ejemplos de vídeo con codificadores de imagen preentrenados, texto o anotaciones humanas, para que una máquina aprenda un solo concepto, por no hablar de múltiples habilidades.

V-JEPA, acrónimo de Joint Embedding Predictive Architectures, es un modelo de visión diseñado para aprender estos conceptos de forma más eficaz.

LeCun dijo que "V-JEPA es un paso hacia una comprensión más fundamentada del mundo para que las máquinas puedan lograr un razonamiento y una planificación más generalizados".

V-JEPA aprende cómo interactúan los objetos en el mundo físico de forma muy parecida a como lo hacen en el mundo real. de la misma manera que los niños pequeños. Una parte fundamental de nuestro aprendizaje consiste en rellenar los espacios en blanco para predecir la información que falta. Cuando una persona pasa por detrás de una pantalla y sale por el otro lado, nuestro cerebro rellena el espacio en blanco con la comprensión de lo que ocurrió detrás de la pantalla.

V-JEPA es un modelo no generativo que aprende prediciendo partes perdidas o enmascaradas de un vídeo. Los modelos generativos pueden recrear un fragmento de vídeo enmascarado píxel a píxel, pero V-JEPA no lo hace.

Compara representaciones abstractas de imágenes no etiquetadas en lugar de los propios píxeles. A V-JEPA se le presenta un vídeo que tiene una gran parte enmascarada, con sólo lo suficiente del vídeo para dar algo de contexto. A continuación, se pide al modelo que proporcione una descripción abstracta de lo que ocurre en el espacio enmascarado.

En lugar de ser entrenado en una habilidad específica, Meta dice que "utilizó entrenamiento autosupervisado en una gama de vídeos y aprendió una serie de cosas sobre cómo funciona el mundo".

Evaluaciones congeladas

Meta's trabajo de investigación explica que una de las claves por las que V-JEPA es mucho más eficaz que otros modelos de aprendizaje visual es su capacidad para realizar "evaluaciones congeladas".

Tras someterse a un aprendizaje autosupervisado con una gran cantidad de datos sin etiquetar, el codificador y el predictor no necesitan más entrenamiento cuando aprenden una nueva habilidad. El modelo preentrenado se congela.

Antes, si se quería ajustar un modelo para aprender una nueva habilidad, había que actualizar los parámetros o los pesos de todo el modelo. Para que V-JEPA aprenda una nueva tarea, solo necesita una pequeña cantidad de datos etiquetados con un pequeño conjunto de parámetros específicos de la tarea optimizados sobre la columna vertebral congelada.

La capacidad de V-JEPA para aprender nuevas tareas de forma eficiente es prometedora para el desarrollo de la IA incorporada. Podría ser clave para que las máquinas sean conscientes de su entorno físico y puedan realizar tareas de planificación y toma de decisiones secuenciales.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales