Meta hat V-JEPA veröffentlicht, ein Modell für prädiktives Sehen, das den nächsten Schritt in Richtung der Vision des Meta Chief AI Scientist Yann LeCun von fortgeschrittener maschineller Intelligenz (AMI) darstellt.
Damit KI-gestützte Maschinen mit Objekten in der realen Welt interagieren können, müssen sie trainiert werden, aber herkömmliche Methoden sind sehr ineffizient. Sie verwenden Tausende von Videobeispielen mit vortrainierten Bildkodierern, Text oder menschlichen Kommentaren, damit eine Maschine ein einziges Konzept, geschweige denn mehrere Fähigkeiten erlernen kann.
V-JEPA, die Abkürzung für Joint Embedding Predictive Architectures, ist ein Bildverarbeitungsmodell, das diese Konzepte auf effizientere Weise erlernen soll.
LeCun sagte, dass "V-JEPA ein Schritt in Richtung eines fundierteren Verständnisses der Welt ist, damit Maschinen ein allgemeineres Denken und Planen erreichen können."
V-JEPA lernt, wie Objekte in der physischen Welt in ähnlicher Weise interagieren wie bei Kleinkindern. Ein wichtiger Teil unseres Lernprozesses besteht darin, die Lücken zu füllen, um fehlende Informationen vorherzusagen. Wenn eine Person hinter einem Bildschirm verschwindet und auf der anderen Seite wieder herauskommt, füllt unser Gehirn die Lücke mit dem Wissen, was hinter dem Bildschirm passiert ist.
V-JEPA ist ein nicht-generatives Modell, das lernt, indem es fehlende oder maskierte Teile eines Videos vorhersagt. Generative Modelle können einen maskierten Teil eines Videos Pixel für Pixel wiederherstellen, aber V-JEPA tut das nicht.
Es vergleicht abstrakte Darstellungen von nicht beschrifteten Bildern und nicht die Pixel selbst. V-JEPA wird ein Video vorgelegt, bei dem ein großer Teil des Bildes ausgeblendet ist, aber gerade so viel, dass ein gewisser Kontext erkennbar ist. Das Modell wird dann gebeten, eine abstrakte Beschreibung dessen zu liefern, was in dem ausgeblendeten Bereich passiert.
Anstatt für eine bestimmte Fähigkeit trainiert zu werden, sagt Meta, dass "es selbstüberwachtes Training für eine Reihe von Videos verwendet und eine Reihe von Dingen darüber gelernt hat, wie die Welt funktioniert."
Heute stellen wir V-JEPA vor, eine Methode, mit der man Maschinen beibringen kann, die physikalische Welt durch das Betrachten von Videos zu verstehen und zu modellieren. Diese Arbeit ist ein weiterer wichtiger Schritt in Richtung @ylecunDie in der Studie skizzierte Vision von KI-Modellen, die ein erlerntes Verständnis der Welt nutzen, um zu planen, zu denken und... pic.twitter.com/5i6uNeFwJp
- AI bei Meta (@AIatMeta) 15. Februar 2024
Eingefrorene Bewertungen
Metas Forschungsarbeit erklärt, dass einer der Hauptgründe, warum V-JEPA so viel effizienter ist als andere Modelle zum Erlernen des Sehens, darin liegt, dass es "eingefrorene Bewertungen" durchführen kann.
Nach dem selbstüberwachten Lernen mit umfangreichen unbeschrifteten Daten benötigen der Encoder und der Prädiktor beim Erlernen einer neuen Fähigkeit kein weiteres Training. Das vortrainierte Modell wird eingefroren.
Wollte man früher ein Modell feinabstimmen, um eine neue Fähigkeit zu erlernen, musste man die Parameter oder die Gewichte des gesamten Modells aktualisieren. Damit V-JEPA eine neue Aufgabe erlernen kann, benötigt es nur eine kleine Menge an markierten Daten mit einem kleinen Satz aufgabenspezifischer Parameter, die auf dem eingefrorenen Grundgerüst optimiert werden.
Die Fähigkeit von V-JEPA, effizient neue Aufgaben zu erlernen, ist vielversprechend für die Entwicklung der verkörperten KI. Sie könnte der Schlüssel dazu sein, dass Maschinen ihre physische Umgebung kontextbezogen wahrnehmen und Planungs- und sequenzielle Entscheidungsaufgaben bewältigen können.