Meta släpper V-JEPA, en prediktiv visionmodell

20 februari 2024

Meta har släppt V-JEPA, en prediktiv visionsmodell som är nästa steg mot Meta Chief AI Scientist Yann LeCuns vision om avancerad maskinintelligens (AMI).

För att AI-drivna maskiner ska kunna interagera med objekt i den fysiska världen måste de tränas, men konventionella metoder är mycket ineffektiva. De använder tusentals videoexempel med förtränade bildkodare, text eller mänskliga kommentarer för att en maskin ska lära sig ett enda koncept, för att inte tala om flera färdigheter.

V-JEPA, som står för Joint Embedding Predictive Architectures, är en visionsmodell som är utformad för att lära sig dessa begrepp på ett mer effektivt sätt.

LeCun sa att "V-JEPA är ett steg mot en mer grundad förståelse av världen så att maskiner kan uppnå mer generaliserade resonemang och planering."

V-JEPA lär sig hur objekt i den fysiska världen interagerar på ungefär samma sätt på samma sätt som småbarn gör. En viktig del av hur vi lär oss är genom att fylla i luckorna för att förutsäga saknad information. När en person går bakom en skärm och ut på andra sidan, fyller vår hjärna i tomrummet med en förståelse för vad som hände bakom skärmen.

V-JEPA är en icke-generativ modell som lär sig genom att förutsäga saknade eller maskerade delar av en video. Generativa modeller kan återskapa en maskerad del av videon pixel för pixel, men V-JEPA gör inte det.

Den jämför abstrakta representationer av omärkta bilder snarare än själva pixlarna. V-JEPA presenteras med en video där en stor del är maskerad, med bara tillräckligt mycket av videon för att ge ett visst sammanhang. Modellen ombeds sedan att ge en abstrakt beskrivning av vad som händer i det maskerade utrymmet.

Istället för att tränas i en specifik färdighet säger Meta att "den använde självövervakad träning på en rad videor och lärde sig ett antal saker om hur världen fungerar."

Frysta utvärderingar

Meta's forskningsrapport förklarar att en av de viktigaste sakerna som gör V-JEPA så mycket mer effektiv än vissa andra modeller för inlärning av visioner är hur bra den är på "frysta utvärderingar".

Efter att ha genomgått självövervakad inlärning med omfattande omärkta data kräver kodaren och prediktorn inte ytterligare träning när de lär sig en ny färdighet. Den förtränade modellen är fryst.

Om man tidigare ville finjustera en modell för att lära sig en ny färdighet behövde man uppdatera parametrarna eller vikterna för hela modellen. För att V-JEPA ska kunna lära sig en ny uppgift krävs endast en liten mängd märkta data med endast en liten uppsättning uppgiftsspecifika parametrar som optimeras ovanpå den frysta ryggraden.

V-JEPAs förmåga att effektivt lära sig nya uppgifter är lovande för utvecklingen av förkroppsligad AI. Det kan vara nyckeln till att göra det möjligt för maskiner att vara kontextuellt medvetna om sin fysiska omgivning och att hantera planering och sekventiellt beslutsfattande.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar