Meta frigiver V-JEPA, en prædiktiv synsmodel

20. februar 2024

Meta har udgivet V-JEPA, en prædiktiv synsmodel, der er det næste skridt mod Meta Chief AI Scientist Yann LeCuns vision om avanceret maskinintelligens (AMI).

For at AI-drevne maskiner kan interagere med objekter i den fysiske verden, skal de trænes, men konventionelle metoder er meget ineffektive. De bruger tusindvis af videoeksempler med prætrænede billedkodere, tekst eller menneskelige kommentarer, for at en maskine kan lære et enkelt koncept, for slet ikke at tale om flere færdigheder.

V-JEPA, som står for Joint Embedding Predictive Architectures, er en synsmodel, der er designet til at lære disse koncepter på en mere effektiv måde.

LeCun sagde, at "V-JEPA er et skridt i retning af en mere velfunderet forståelse af verden, så maskiner kan opnå mere generel ræsonnering og planlægning."

V-JEPA lærer, hvordan objekter i den fysiske verden interagerer på samme måde på samme måde som småbørn gør. En vigtig del af den måde, vi lærer på, er ved at udfylde de tomme felter for at forudsige manglende information. Når en person går bag en skærm og ud på den anden side, udfylder vores hjerne det tomme felt med en forståelse af, hvad der skete bag skærmen.

V-JEPA er en ikke-generativ model, der lærer ved at forudsige manglende eller maskerede dele af en video. Generative modeller kan genskabe et maskeret stykke video pixel for pixel, men det gør V-JEPA ikke.

Den sammenligner abstrakte repræsentationer af umærkede billeder i stedet for selve pixlerne. V-JEPA præsenteres for en video, hvor en stor del er maskeret, og hvor der kun er nok af videoen til at give en vis kontekst. Modellen bliver derefter bedt om at give en abstrakt beskrivelse af, hvad der sker i det maskerede område.

I stedet for at blive trænet i en bestemt færdighed, siger Meta, at "den brugte selvstyret træning på en række videoer og lærte en række ting om, hvordan verden fungerer."

Frosne evalueringer

Meta's forskningsartikel forklarer, at en af de vigtigste ting, der gør V-JEPA så meget mere effektiv end andre modeller for synslæring, er, hvor god den er til "frosne evalueringer".

Efter at have gennemgået selvovervåget læring med omfattende umærkede data, kræver koderen og prædiktoren ikke yderligere træning, når de lærer en ny færdighed. Den prætrænede model er fastfrosset.

Hvis man tidligere ville finjustere en model for at lære en ny færdighed, skulle man opdatere parametrene eller vægtene i hele modellen. For at V-JEPA kan lære en ny opgave, kræver det kun en lille mængde mærkede data med kun et lille sæt opgavespecifikke parametre, der er optimeret oven på den frosne rygrad.

V-JEPA's evne til effektivt at lære nye opgaver er lovende for udviklingen af kropsliggjort AI. Det kan være nøglen til at gøre det muligt for maskiner at være kontekstuelt bevidste om deres fysiske omgivelser og at håndtere planlægning og sekventielle beslutningsopgaver.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser