Meta brengt V-JEPA uit, een voorspellend visiemodel

20 februari 2024

Meta heeft V-JEPA uitgebracht, een voorspellend visiemodel dat de volgende stap is op weg naar de visie van Meta Chief AI Scientist Yann LeCun op geavanceerde machine intelligentie (AMI).

Om AI-machines te laten interageren met objecten in de fysieke wereld, moeten ze getraind worden, maar conventionele methoden zijn erg inefficiënt. Ze gebruiken duizenden videovoorbeelden met voorgetrainde beeldcoders, tekst of menselijke annotaties om een machine een enkel concept te laten leren, laat staan meerdere vaardigheden.

V-JEPA, wat staat voor Joint Embedding Predictive Architectures, is een visiemodel dat is ontworpen om deze concepten op een efficiëntere manier te leren.

LeCun zei dat "V-JEPA een stap is in de richting van een meer gefundeerd begrip van de wereld, zodat machines algemener kunnen redeneren en plannen."

V-JEPA leert hoe objecten in de fysieke wereld op dezelfde manier op elkaar reageren als objecten in de fysieke wereld. op dezelfde manier als peuters dat doen. Een belangrijk onderdeel van hoe we leren is door het invullen van de lege plekken om ontbrekende informatie te voorspellen. Als iemand achter een scherm loopt en er aan de andere kant weer uitkomt, vullen onze hersenen de lege ruimte in met een begrip van wat er achter het scherm gebeurde.

V-JEPA is een niet-generatief model dat leert door ontbrekende of gemaskeerde delen van een video te voorspellen. Generatieve modellen kunnen een gemaskeerd stuk video pixel voor pixel namaken, maar V-JEPA doet dat niet.

Het vergelijkt abstracte representaties van ongelabelde afbeeldingen in plaats van de pixels zelf. V-JEPA krijgt een video te zien waarvan een groot deel is gemaskeerd, met net genoeg van de video om enige context te geven. Het model wordt dan gevraagd om een abstracte beschrijving te geven van wat er gebeurt in de gemaskeerde ruimte.

In plaats van getraind te worden op één specifieke vaardigheid, zegt Meta "gebruikte het zelfondersteunde training op een reeks video's en leerde het een aantal dingen over hoe de wereld werkt".

Bevroren evaluaties

Meta's onderzoeksdocument legt uit dat een van de belangrijkste dingen die V-JEPA zo veel efficiënter maakt dan sommige andere vision-leermodellen is hoe goed het is in "bevroren evaluaties".

Na het ondergaan van zelf-getraind leren met uitgebreide ongelabelde data, hebben de encoder en predictor geen verdere training nodig bij het leren van een nieuwe vaardigheid. Het voorgetrainde model wordt bevroren.

Als je voorheen een model wilde bijstellen om een nieuwe vaardigheid te leren, moest je de parameters of de gewichten van het hele model bijwerken. Om V-JEPA een nieuwe taak te laten leren, is slechts een kleine hoeveelheid gelabelde gegevens nodig met slechts een kleine set taakspecifieke parameters die zijn geoptimaliseerd bovenop de bevroren ruggengraat.

Het vermogen van V-JEPA om efficiënt nieuwe taken te leren is veelbelovend voor de ontwikkeling van belichaamde AI. Het zou de sleutel kunnen zijn om machines contextueel bewust te maken van hun fysieke omgeving en om taken op het gebied van planning en sequentiële besluitvorming uit te voeren.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden