Meta ha rilasciato V-JEPA, un modello di visione predittiva che rappresenta il prossimo passo verso la visione dell'intelligenza artificiale avanzata (AMI) di Yann LeCun, Chief AI Scientist di Meta.
Per poter interagire con gli oggetti del mondo fisico, le macchine dotate di intelligenza artificiale devono essere addestrate, ma i metodi tradizionali sono molto inefficienti. Utilizzano migliaia di esempi video con codificatori di immagini pre-addestrati, testo o annotazioni umane, perché una macchina possa imparare un singolo concetto, per non parlare di più abilità.
V-JEPA, acronimo di Joint Embedding Predictive Architectures, è un modello di visione progettato per apprendere questi concetti in modo più efficiente.
LeCun ha dichiarato che "V-JEPA è un passo avanti verso una comprensione più fondata del mondo, in modo che le macchine possano raggiungere un ragionamento e una pianificazione più generalizzati".
Il V-JEPA apprende come gli oggetti del mondo fisico interagiscano in modo molto simile a quello allo stesso modo in cui lo fanno i bambini piccoli. Una parte fondamentale del modo in cui impariamo è riempire gli spazi vuoti per prevedere le informazioni mancanti. Quando una persona passa dietro a uno schermo ed esce dall'altra parte, il nostro cervello riempie gli spazi vuoti con la comprensione di ciò che è accaduto dietro lo schermo.
V-JEPA è un modello non generativo che apprende prevedendo le parti mancanti o mascherate di un video. I modelli generativi possono ricreare un pezzo di video mascherato pixel per pixel, ma V-JEPA non lo fa.
Confronta rappresentazioni astratte di immagini senza etichetta piuttosto che i pixel stessi. A V-JEPA viene presentato un video con un'ampia porzione mascherata, con una parte del video sufficiente a fornire un contesto. Al modello viene quindi chiesto di fornire una descrizione astratta di ciò che accade nello spazio mascherato.
Invece di essere addestrato su un'abilità specifica, Meta dice che "ha usato un addestramento auto-supervisionato su una serie di video e ha imparato una serie di cose su come funziona il mondo".
Oggi pubblichiamo V-JEPA, un metodo per insegnare alle macchine a comprendere e modellare il mondo fisico guardando video. Questo lavoro è un altro passo importante verso @ylecunLa visione delineata dall'autore di modelli di IA che utilizzano una comprensione appresa del mondo per pianificare, ragionare e... pic.twitter.com/5i6uNeFwJp
- AI a Meta (@AIatMeta) 15 febbraio 2024
Valutazioni congelate
Meta's carta di ricerca spiega che uno degli aspetti chiave che rende V-JEPA molto più efficiente di altri modelli di apprendimento della visione è la sua capacità di "valutazione congelata".
Dopo aver subito un apprendimento auto-supervisionato con ampi dati non etichettati, il codificatore e il predittore non richiedono un ulteriore addestramento quando imparano una nuova abilità. Il modello preaddestrato viene congelato.
In precedenza, se si voleva mettere a punto un modello per apprendere una nuova abilità, era necessario aggiornare i parametri o i pesi dell'intero modello. Per apprendere un nuovo compito, V-JEPA richiede solo una piccola quantità di dati etichettati e un piccolo insieme di parametri specifici per il compito, ottimizzati sulla base della struttura portante congelata.
La capacità di V-JEPA di apprendere in modo efficiente nuovi compiti è promettente per lo sviluppo dell'intelligenza artificiale incarnata. Potrebbe essere la chiave per consentire alle macchine di essere consapevoli del contesto fisico che le circonda e di gestire compiti di pianificazione e di decisione sequenziale.