Meta har släppt V-JEPA, en prediktiv visionsmodell som är nästa steg mot Meta Chief AI Scientist Yann LeCuns vision om avancerad maskinintelligens (AMI).
För att AI-drivna maskiner ska kunna interagera med objekt i den fysiska världen måste de tränas, men konventionella metoder är mycket ineffektiva. De använder tusentals videoexempel med förtränade bildkodare, text eller mänskliga kommentarer för att en maskin ska lära sig ett enda koncept, för att inte tala om flera färdigheter.
V-JEPA, som står för Joint Embedding Predictive Architectures, är en visionsmodell som är utformad för att lära sig dessa begrepp på ett mer effektivt sätt.
LeCun sa att "V-JEPA är ett steg mot en mer grundad förståelse av världen så att maskiner kan uppnå mer generaliserade resonemang och planering."
V-JEPA lär sig hur objekt i den fysiska världen interagerar på ungefär samma sätt på samma sätt som småbarn gör. En viktig del av hur vi lär oss är genom att fylla i luckorna för att förutsäga saknad information. När en person går bakom en skärm och ut på andra sidan, fyller vår hjärna i tomrummet med en förståelse för vad som hände bakom skärmen.
V-JEPA är en icke-generativ modell som lär sig genom att förutsäga saknade eller maskerade delar av en video. Generativa modeller kan återskapa en maskerad del av videon pixel för pixel, men V-JEPA gör inte det.
Den jämför abstrakta representationer av omärkta bilder snarare än själva pixlarna. V-JEPA presenteras med en video där en stor del är maskerad, med bara tillräckligt mycket av videon för att ge ett visst sammanhang. Modellen ombeds sedan att ge en abstrakt beskrivning av vad som händer i det maskerade utrymmet.
Istället för att tränas i en specifik färdighet säger Meta att "den använde självövervakad träning på en rad videor och lärde sig ett antal saker om hur världen fungerar."
Idag släpper vi V-JEPA, en metod för att lära maskiner att förstå och modellera den fysiska världen genom att titta på videor. Detta arbete är ytterligare ett viktigt steg mot @ylecunDet är en vision om AI-modeller som använder en inlärd förståelse av världen för att planera, resonera och... pic.twitter.com/5i6uNeFwJp
- AI på Meta (@AIatMeta) 15 februari 2024
Frysta utvärderingar
Meta's forskningsrapport förklarar att en av de viktigaste sakerna som gör V-JEPA så mycket mer effektiv än vissa andra modeller för inlärning av visioner är hur bra den är på "frysta utvärderingar".
Efter att ha genomgått självövervakad inlärning med omfattande omärkta data kräver kodaren och prediktorn inte ytterligare träning när de lär sig en ny färdighet. Den förtränade modellen är fryst.
Om man tidigare ville finjustera en modell för att lära sig en ny färdighet behövde man uppdatera parametrarna eller vikterna för hela modellen. För att V-JEPA ska kunna lära sig en ny uppgift krävs endast en liten mängd märkta data med endast en liten uppsättning uppgiftsspecifika parametrar som optimeras ovanpå den frysta ryggraden.
V-JEPAs förmåga att effektivt lära sig nya uppgifter är lovande för utvecklingen av förkroppsligad AI. Det kan vara nyckeln till att göra det möjligt för maskiner att vara kontextuellt medvetna om sin fysiska omgivning och att hantera planering och sekventiellt beslutsfattande.