Meta rilascia V-JEPA, un modello di visione predittivo

20 febbraio 2024

Meta ha rilasciato V-JEPA, un modello di visione predittiva che rappresenta il prossimo passo verso la visione dell'intelligenza artificiale avanzata (AMI) di Yann LeCun, Chief AI Scientist di Meta.

Per poter interagire con gli oggetti del mondo fisico, le macchine dotate di intelligenza artificiale devono essere addestrate, ma i metodi tradizionali sono molto inefficienti. Utilizzano migliaia di esempi video con codificatori di immagini pre-addestrati, testo o annotazioni umane, perché una macchina possa imparare un singolo concetto, per non parlare di più abilità.

V-JEPA, acronimo di Joint Embedding Predictive Architectures, è un modello di visione progettato per apprendere questi concetti in modo più efficiente.

LeCun ha dichiarato che "V-JEPA è un passo avanti verso una comprensione più fondata del mondo, in modo che le macchine possano raggiungere un ragionamento e una pianificazione più generalizzati".

Il V-JEPA apprende come gli oggetti del mondo fisico interagiscano in modo molto simile a quello allo stesso modo in cui lo fanno i bambini piccoli. Una parte fondamentale del modo in cui impariamo è riempire gli spazi vuoti per prevedere le informazioni mancanti. Quando una persona passa dietro a uno schermo ed esce dall'altra parte, il nostro cervello riempie gli spazi vuoti con la comprensione di ciò che è accaduto dietro lo schermo.

V-JEPA è un modello non generativo che apprende prevedendo le parti mancanti o mascherate di un video. I modelli generativi possono ricreare un pezzo di video mascherato pixel per pixel, ma V-JEPA non lo fa.

Confronta rappresentazioni astratte di immagini senza etichetta piuttosto che i pixel stessi. A V-JEPA viene presentato un video con un'ampia porzione mascherata, con una parte del video sufficiente a fornire un contesto. Al modello viene quindi chiesto di fornire una descrizione astratta di ciò che accade nello spazio mascherato.

Invece di essere addestrato su un'abilità specifica, Meta dice che "ha usato un addestramento auto-supervisionato su una serie di video e ha imparato una serie di cose su come funziona il mondo".

Valutazioni congelate

Meta's carta di ricerca spiega che uno degli aspetti chiave che rende V-JEPA molto più efficiente di altri modelli di apprendimento della visione è la sua capacità di "valutazione congelata".

Dopo aver subito un apprendimento auto-supervisionato con ampi dati non etichettati, il codificatore e il predittore non richiedono un ulteriore addestramento quando imparano una nuova abilità. Il modello preaddestrato viene congelato.

In precedenza, se si voleva mettere a punto un modello per apprendere una nuova abilità, era necessario aggiornare i parametri o i pesi dell'intero modello. Per apprendere un nuovo compito, V-JEPA richiede solo una piccola quantità di dati etichettati e un piccolo insieme di parametri specifici per il compito, ottimizzati sulla base della struttura portante congelata.

La capacità di V-JEPA di apprendere in modo efficiente nuovi compiti è promettente per lo sviluppo dell'intelligenza artificiale incarnata. Potrebbe essere la chiave per consentire alle macchine di essere consapevoli del contesto fisico che le circonda e di gestire compiti di pianificazione e di decisione sequenziale.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni