De onderzoeksdivisie van Meta heeft SAM 2 (Segment Anything Model 2) geïntroduceerd, een AI-systeem dat een enorme vooruitgang betekent in videoanalyse.
Dit nieuwe model breidt de vaardigheden van zijn voorganger SAM op het gebied van beeldsegmentatie uit en begeeft zich op het complexere terrein van video.
Videosegmentatie - het vermogen om specifieke objecten in een bewegende scène te identificeren en te volgen - is al lange tijd een uitdaging voor AI.
Terwijl mensen moeiteloos een auto kunnen volgen die door het verkeer rijdt of een persoon die door een menigte loopt, hebben AI-systemen de neiging om te worstelen. Dit is een enorm probleem voor bestuurderloze auto's en andere autonome voertuigen (AV's), die bewegende 3D-objecten in hun omgeving moeten volgen.
SAM 2 wil deze kloof overbruggen en het begrip van video door AI dichter bij de menselijke perceptie brengen.
Het systeem kan vrijwel elk object in een video identificeren en volgen met minimale invoer van de gebruiker - soms met slechts één klik. Dit opent een wereld aan mogelijkheden op gebieden variërend van filmbewerking tot wetenschappelijk onderzoek.
Dit is hoe Meta SAM 2 heeft gemaakt en getest:
- Het team heeft een techniek ontwikkeld die Promptable Visual Segmentation (PVS) wordt genoemd, waardoor gebruikers de AI kunnen sturen met eenvoudige aanwijzingen op elk videoframe. Dit betekent dat het systeem zich kan aanpassen aan een breed scala aan scenario's, van het volgen van een specifieke persoon in een menigte tot het volgen van de beweging van de vleugel van een vogel tijdens de vlucht.
- Ze bouwden een modelarchitectuur die componenten bevatte voor het verwerken van individuele frames, het opslaan van informatie over objecten in de tijd en het genereren van nauwkeurige segmentaties.
- Een belangrijk element is de geheugenmodule, waardoor SAM 2 consistent kan blijven volgen, zelfs wanneer objecten tijdelijk uit beeld verdwijnen.
- Er is een enorme nieuwe dataset gemaakt met meer dan 50.000 video's en 35 miljoen gelabelde frames, die eerdere datasets voor videosegmentatie in de schaduw stelt. T
- Zijn dataset, SA-V genaamd, omvat een breed spectrum aan objecttypen, groottes en scenario's, waardoor het model beter in staat is om te generaliseren naar nieuwe situaties.
- Het model is uitgebreid getraind en getest op 17 verschillende videodatasets, van dashcambeelden tot medische beelden.
- SAM 2 presteerde beter dan bestaande geavanceerde methoden in semi-supervised video objectsegmentatietaken, met een gemiddelde verbetering van 7,5% in J&F scores (een standaard metric voor segmentatiekwaliteit).
Boven: Beeldsegmentatie voor complexe videoclips scheidt verschillende vormen in seconden.
- In de filmproductie zou SAM 2 het werk met visuele effecten kunnen stroomlijnen, waardoor tijd wordt bespaard in de postproductie.
- Wetenschappers zouden cellen kunnen volgen in microscopische beelden of veranderingen in het milieu kunnen volgen in satellietbeelden
- Voor AV's, inclusief bestuurderloze auto's, zou SAM 2 de objectdetectie in complexe verkeersscenario's kunnen verbeteren.
- Natuurbeschermers zouden SAM 2 kunnen gebruiken om dierenpopulaties in uitgestrekte gebieden te monitoren.
- In AR/VR kan het nauwkeurigere interacties met virtuele objecten in live video mogelijk maken.
Trouw aan Meta's toewijding aan open onderzoek, wordt SAM 2 uitgebracht als open-source software.
Dit omvat niet alleen het model, maar ook de dataset die is gebruikt om het model te trainen.
Onderzoekers zijn al bezig met het verkennen van manieren om langere video's te verwerken, de prestaties op fijne details te verbeteren en de rekenkracht die nodig is om het model uit te voeren te verminderen.
Naarmate de beeldsegmentatietechnologie zich verder ontwikkelt, zal deze zeker de manier veranderen waarop we omgaan met video-inhoud en deze analyseren.
Van het toegankelijker maken van complexe bewerkingstaken tot het mogelijk maken van nieuwe vormen van visuele analyse, SAM 2 verlegt de grenzen van visuele manipulatie.