Die Forschungsabteilung von Meta hat SAM 2 (Segment Anything Model 2) vorgestellt, ein KI-System, das einen großen Fortschritt in der Videoanalyse darstellt.
Dieses neue Modell erweitert die Fähigkeiten seines Vorgängers SAM bei der Bildsegmentierung und wagt sich in den komplexeren Bereich der Videos.
Die Segmentierung von Videos - die Fähigkeit, bestimmte Objekte in einer sich bewegenden Szene zu identifizieren und zu verfolgen - ist seit langem eine Herausforderung für die KI.
Während Menschen mühelos einem Auto im Straßenverkehr oder einer Person, die durch eine Menschenmenge läuft, folgen können, haben KI-Systeme in der Regel Schwierigkeiten. Dies ist ein massives Problem für fahrerlose Autos und andere autonome Fahrzeuge (AVs), die sich bewegende 3D-Objekte in ihrer Umgebung verfolgen müssen.
SAM 2 zielt darauf ab, diese Lücke zu schließen und das Verständnis der KI für Videos näher an die menschliche Wahrnehmung heranzuführen.
Das System kann praktisch jedes Objekt in einem Video mit minimalen Benutzereingaben identifizieren und verfolgen - manchmal genügt ein einziger Klick. Dies eröffnet eine Vielzahl von Möglichkeiten, die von der Filmbearbeitung bis zur wissenschaftlichen Forschung reichen.
Hier erfahren Sie, wie Meta SAM 2 erstellt und getestet hat:
- Das Team hat eine Technik namens Promptable Visual Segmentation (PVS) entwickelt, die es den Benutzern ermöglicht, die KI mit einfachen Hinweisen auf jedem Videobild zu steuern. Das bedeutet, dass sich das System an eine breite Palette von Szenarien anpassen kann, von der Verfolgung einer bestimmten Person in einer Menschenmenge bis hin zur Verfolgung der Flügelbewegung eines Vogels im Flug.
- Sie bauten eine Modellarchitektur auf, die Komponenten für die Verarbeitung einzelner Bilder, die Speicherung von Informationen über Objekte im Zeitverlauf und die Erstellung präziser Segmentierungen umfasste.
- Ein Schlüsselelement ist das Speichermodul, das es SAM 2 ermöglicht, eine konsistente Verfolgung beizubehalten, selbst wenn Objekte vorübergehend aus dem Blickfeld verschwinden.
- Es wurde ein riesiger neuer Datensatz mit über 50.000 Videos und 35 Millionen beschrifteten Bildern erstellt, der frühere Videosegmentierungsdatensätze in den Schatten stellt. T
- ieser Datensatz, SA-V genannt, deckt ein breites Spektrum von Objekttypen, -größen und -szenarien ab und verbessert die Fähigkeit des Modells, sich auf neue Situationen zu verallgemeinern.
- Das Modell wurde in 17 verschiedenen Videodatensätzen, von Dashcam-Aufnahmen bis hin zu medizinischen Bildern, ausgiebig trainiert und getestet.
- SAM 2 übertraf die existierenden State-of-the-Art-Methoden in halbüberwachten Videoobjekt-Segmentierungsaufgaben und erreichte eine durchschnittliche Verbesserung von 7,5% in den J&F-Scores (eine Standardmetrik für die Segmentierungsqualität).
Über: Die Bildsegmentierung für komplexe Videoclips trennt verschiedene Formen in Sekundenschnelle.
- In der Filmproduktion könnte SAM 2 die Arbeit mit visuellen Effekten rationalisieren und Zeit in der Postproduktion sparen.
- Wissenschaftler könnten Zellen in Mikroskopieaufnahmen verfolgen oder Umweltveränderungen in Satellitenbildern überwachen
- Für AVs, einschließlich fahrerloser Autos, könnte SAM 2 die Objekterkennung in komplexen Verkehrsszenarien verbessern
- Wildtierschützer könnten SAM 2 zur Überwachung von Tierpopulationen in großen Gebieten einsetzen
- In AR/VR kann sie genauere Interaktionen mit virtuellen Objekten in Live-Videos ermöglichen.
Getreu Metas Engagement für offene Forschung wird SAM 2 als Open-Source-Software veröffentlicht.
Dazu gehört nicht nur das Modell, sondern auch der Datensatz, mit dem es trainiert wurde.
Die Forscher suchen bereits nach Möglichkeiten, längere Videos zu verarbeiten, die Leistung bei feinen Details zu verbessern und die für die Ausführung des Modells erforderliche Rechenleistung zu verringern.
Mit der Weiterentwicklung der Bildsegmentierungstechnologie wird sich die Art und Weise, wie wir mit Videoinhalten interagieren und sie analysieren, mit Sicherheit verändern.
SAM 2 macht komplexe Editieraufgaben leichter zugänglich und ermöglicht neue Formen der visuellen Analyse, indem es die Grenzen der visuellen Manipulation erweitert.