Meta har lansert V-JEPA, en prediktiv visjonsmodell som er neste skritt mot Meta Chief AI Scientist Yann LeCuns visjon om avansert maskinintelligens (AMI).
For at AI-drevne maskiner skal kunne samhandle med objekter i den fysiske verden, må de trenes opp, men konvensjonelle metoder er svært ineffektive. De bruker tusenvis av videoeksempler med forhåndstrenede bildekodere, tekst eller menneskelige kommentarer for at en maskin skal kunne lære seg et enkelt konsept, for ikke å snakke om flere ferdigheter.
V-JEPA, som står for Joint Embedding Predictive Architectures, er en synsmodell som er utviklet for å lære disse konseptene på en mer effektiv måte.
LeCun sa at "V-JEPA er et skritt i retning av en mer grunnleggende forståelse av verden, slik at maskiner kan oppnå mer generalisert resonnering og planlegging."
V-JEPA lærer hvordan objekter i den fysiske verden samhandler på omtrent samme på samme måte som småbarn gjør. En viktig del av måten vi lærer på, er ved å fylle ut de tomme feltene for å forutsi manglende informasjon. Når en person går bak en skjerm og ut på den andre siden, fyller hjernen vår ut tomrommet med en forståelse av hva som skjedde bak skjermen.
V-JEPA er en ikke-generativ modell som lærer ved å forutsi manglende eller maskerte deler av en video. Generative modeller kan gjenskape en maskert del av en video piksel for piksel, men V-JEPA gjør ikke det.
Den sammenligner abstrakte representasjoner av umerkede bilder i stedet for selve pikslene. V-JEPA blir presentert for en video der en stor del er maskert ut, med akkurat nok av videoen til å gi en viss kontekst. Modellen blir deretter bedt om å gi en abstrakt beskrivelse av hva som skjer i det maskerte området.
I stedet for å bli opplært i én spesifikk ferdighet, sier Meta at "den brukte selvveiledet trening på en rekke videoer og lærte en rekke ting om hvordan verden fungerer".
I dag lanserer vi V-JEPA, en metode for å lære maskiner å forstå og modellere den fysiske verden ved å se på videoer. Dette arbeidet er nok et viktig skritt mot @ylecun...s skisserte visjon om AI-modeller som bruker en innlært forståelse av verden til å planlegge, resonnere og... pic.twitter.com/5i6uNeFwJp
- AI på Meta (@AIatMeta) 15. februar 2024
Frosne evalueringer
Meta's forskningsoppgave forklarer at en av de viktigste tingene som gjør V-JEPA så mye mer effektiv enn andre modeller for synslæring, er hvor god den er på "frosne evalueringer".
Etter å ha gjennomgått selvveiledet læring med omfattende umerkede data, trenger ikke koderen og prediktoren ytterligere opplæring når de skal lære seg en ny ferdighet. Den forhåndstrenede modellen fryses.
Tidligere måtte du oppdatere parametrene eller vektene i hele modellen hvis du ønsket å finjustere en modell for å lære en ny ferdighet. For at V-JEPA skal kunne lære en ny oppgave, trenger den bare en liten mengde merkede data med bare et lite sett oppgavespesifikke parametere som er optimalisert på toppen av den frosne ryggraden.
V-JEPAs evne til å lære seg nye oppgaver på en effektiv måte er lovende for utviklingen av kroppslig AI. Det kan være nøkkelen til å gjøre maskiner i stand til å være kontekstuelt bevisste på sine fysiske omgivelser og til å håndtere planlegging og sekvensielle beslutningsoppgaver.