A Meta lançou o V-JEPA, um modelo de visão preditiva que é o próximo passo para a visão de inteligência artificial avançada (AMI) do cientista chefe de IA da Meta, Yann LeCun.
Para que as máquinas alimentadas por IA possam interagir com objectos no mundo físico, precisam de ser treinadas, mas os métodos convencionais são muito ineficientes. Utilizam milhares de exemplos de vídeo com codificadores de imagem pré-treinados, texto ou anotações humanas, para que uma máquina aprenda um único conceito, quanto mais múltiplas competências.
V-JEPA, que significa Joint Embedding Predictive Architectures (Arquitecturas Preditivas de Incorporação Conjunta), é um modelo de visão concebido para aprender estes conceitos de uma forma mais eficiente.
LeCun afirmou que "o V-JEPA é um passo em direção a uma compreensão mais fundamentada do mundo, para que as máquinas possam alcançar um raciocínio e um planeamento mais generalizados".
O V-JEPA aprende como os objectos no mundo físico interagem de forma muito semelhante à da mesma forma que os bebés. Uma parte essencial da forma como aprendemos consiste em preencher os espaços em branco para prever a informação em falta. Quando uma pessoa passa por trás de um ecrã e sai pelo outro lado, o nosso cérebro preenche o espaço em branco com a compreensão do que aconteceu atrás do ecrã.
O V-JEPA é um modelo não generativo que aprende através da previsão de partes ausentes ou mascaradas de um vídeo. Os modelos generativos podem recriar uma parte mascarada do vídeo pixel a pixel, mas o V-JEPA não faz isso.
Compara representações abstractas de imagens sem rótulos em vez dos próprios pixels. O V-JEPA é apresentado com um vídeo que tem uma grande parte mascarada, com apenas o suficiente do vídeo para dar algum contexto. Pede-se então ao modelo que forneça uma descrição abstrata do que está a acontecer no espaço mascarado.
Em vez de ser treinado numa competência específica, Meta diz que "utilizou o treino auto-supervisionado numa série de vídeos e aprendeu uma série de coisas sobre como o mundo funciona".
Hoje estamos a lançar o V-JEPA, um método para ensinar as máquinas a compreender e modelar o mundo físico através da visualização de vídeos. Este trabalho é mais um passo importante para @ylecunA visão delineada pela Comissão Europeia de modelos de IA que utilizam uma compreensão aprendida do mundo para planear, raciocinar e... pic.twitter.com/5i6uNeFwJp
- IA no Meta (@AIatMeta) 15 de fevereiro de 2024
Avaliações congeladas
Meta's trabalho de investigação explica que um dos aspectos fundamentais que torna o V-JEPA muito mais eficiente do que outros modelos de aprendizagem da visão é a sua capacidade de efetuar "avaliações congeladas".
Depois de passarem por uma aprendizagem auto-supervisionada com dados extensos não rotulados, o codificador e o preditor não necessitam de mais formação quando aprendem uma nova competência. O modelo pré-treinado é congelado.
Anteriormente, se se quisesse afinar um modelo para aprender uma nova competência, seria necessário atualizar os parâmetros ou os pesos de todo o modelo. Para que o V-JEPA aprenda uma nova tarefa, é necessária apenas uma pequena quantidade de dados rotulados com apenas um pequeno conjunto de parâmetros específicos da tarefa optimizados em cima da espinha dorsal congelada.
A capacidade que a V-JEPA tem de aprender eficazmente novas tarefas é prometedora para o desenvolvimento da IA incorporada. Poderá ser a chave para permitir que as máquinas tenham consciência contextual do seu ambiente físico e possam lidar com tarefas de planeamento e de tomada de decisões sequenciais.