Meta veröffentlicht V-JEPA, ein prädiktives Bildgebungsmodell

20. Februar 2024

Meta hat V-JEPA veröffentlicht, ein Modell für prädiktives Sehen, das den nächsten Schritt in Richtung der Vision des Meta Chief AI Scientist Yann LeCun von fortgeschrittener maschineller Intelligenz (AMI) darstellt.

Damit KI-gestützte Maschinen mit Objekten in der realen Welt interagieren können, müssen sie trainiert werden, aber herkömmliche Methoden sind sehr ineffizient. Sie verwenden Tausende von Videobeispielen mit vortrainierten Bildkodierern, Text oder menschlichen Kommentaren, damit eine Maschine ein einziges Konzept, geschweige denn mehrere Fähigkeiten erlernen kann.

V-JEPA, die Abkürzung für Joint Embedding Predictive Architectures, ist ein Bildverarbeitungsmodell, das diese Konzepte auf effizientere Weise erlernen soll.

LeCun sagte, dass "V-JEPA ein Schritt in Richtung eines fundierteren Verständnisses der Welt ist, damit Maschinen ein allgemeineres Denken und Planen erreichen können."

V-JEPA lernt, wie Objekte in der physischen Welt in ähnlicher Weise interagieren wie bei Kleinkindern. Ein wichtiger Teil unseres Lernprozesses besteht darin, die Lücken zu füllen, um fehlende Informationen vorherzusagen. Wenn eine Person hinter einem Bildschirm verschwindet und auf der anderen Seite wieder herauskommt, füllt unser Gehirn die Lücke mit dem Wissen, was hinter dem Bildschirm passiert ist.

V-JEPA ist ein nicht-generatives Modell, das lernt, indem es fehlende oder maskierte Teile eines Videos vorhersagt. Generative Modelle können einen maskierten Teil eines Videos Pixel für Pixel wiederherstellen, aber V-JEPA tut das nicht.

Es vergleicht abstrakte Darstellungen von nicht beschrifteten Bildern und nicht die Pixel selbst. V-JEPA wird ein Video vorgelegt, bei dem ein großer Teil des Bildes ausgeblendet ist, aber gerade so viel, dass ein gewisser Kontext erkennbar ist. Das Modell wird dann gebeten, eine abstrakte Beschreibung dessen zu liefern, was in dem ausgeblendeten Bereich passiert.

Anstatt für eine bestimmte Fähigkeit trainiert zu werden, sagt Meta, dass "es selbstüberwachtes Training für eine Reihe von Videos verwendet und eine Reihe von Dingen darüber gelernt hat, wie die Welt funktioniert."

Eingefrorene Bewertungen

Metas Forschungsarbeit erklärt, dass einer der Hauptgründe, warum V-JEPA so viel effizienter ist als andere Modelle zum Erlernen des Sehens, darin liegt, dass es "eingefrorene Bewertungen" durchführen kann.

Nach dem selbstüberwachten Lernen mit umfangreichen unbeschrifteten Daten benötigen der Encoder und der Prädiktor beim Erlernen einer neuen Fähigkeit kein weiteres Training. Das vortrainierte Modell wird eingefroren.

Wollte man früher ein Modell feinabstimmen, um eine neue Fähigkeit zu erlernen, musste man die Parameter oder die Gewichte des gesamten Modells aktualisieren. Damit V-JEPA eine neue Aufgabe erlernen kann, benötigt es nur eine kleine Menge an markierten Daten mit einem kleinen Satz aufgabenspezifischer Parameter, die auf dem eingefrorenen Grundgerüst optimiert werden.

Die Fähigkeit von V-JEPA, effizient neue Aufgaben zu erlernen, ist vielversprechend für die Entwicklung der verkörperten KI. Sie könnte der Schlüssel dazu sein, dass Maschinen ihre physische Umgebung kontextbezogen wahrnehmen und Planungs- und sequenzielle Entscheidungsaufgaben bewältigen können.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen