Metas forskningsavdelning har introducerat SAM 2 (Segment Anything Model 2), ett AI-system som markerar ett stort framsteg inom videoanalys.
Den här nya modellen bygger vidare på föregångaren SAM:s kunskaper om bildsegmentering och ger sig in på den mer komplexa videodomänen.
Videosegmentering - förmågan att identifiera och spåra specifika objekt i en rörlig scen - har länge varit en utmaning för AI.
Medan människor utan problem kan följa en bil som rör sig genom trafiken eller en person som går genom en folkmassa, tenderar AI-system att ha det svårare. Detta är ett stort problem för Förarlösa bilar och andra autonoma fordon (AV), som behöver spåra rörliga 3D-objekt i sin omgivning.
SAM 2 syftar till att överbrygga denna klyfta och föra AI:s förståelse av video närmare den mänskliga nivån.
Systemet kan identifiera och spåra praktiskt taget vilket objekt som helst i en video med minimala användarinställningar - ibland så lite som ett enda klick. Detta öppnar en värld av möjligheter inom områden som sträcker sig från filmredigering till vetenskaplig forskning.
Här är hur Meta skapade och testade SAM 2:
- Teamet skapade en teknik som kallas Promptable Visual Segmentation (PVS), som gör det möjligt för användare att vägleda AI med enkla ledtrådar på valfri videobild. Detta innebär att systemet kan anpassas till en mängd olika scenarier, från att spåra en specifik person i en folkmassa till att följa en fågelvinges rörelse under flygning.
- De byggde en modellarkitektur som innehöll komponenter för bearbetning av enskilda bildrutor, lagring av information om objekt över tid och generering av exakta segmenteringar.
- Ett viktigt element är minnesmodulen, som gör att SAM 2 kan upprätthålla en konsekvent spårning även när objekt tillfälligt försvinner ur sikte.
- En massiv ny dataset skapades, som innehåller över 50.000 videor och 35 miljoner märkta bildrutor, vilket överträffar tidigare dataset för videosegmentering. T
- Datamängden, som kallas SA-V, omfattar ett brett spektrum av objekttyper, storlekar och scenarier, vilket förbättrar modellens förmåga att generalisera till nya situationer.
- Modellen genomgick omfattande träning och testning i 17 olika videodataset, från bilkamerafilmer till medicinsk bildbehandling.
- SAM 2 överträffade befintliga state-of-the-art-metoder i semi-övervakade segmenteringsuppgifter för videoobjekt och uppnådde en genomsnittlig förbättring på 7,5% i J&F-poäng (ett standardmått för segmenteringskvalitet).
Ovan: Bildsegmentering för komplexa videoklipp separerar olika former på några sekunder.
- Inom filmproduktion kan SAM 2 effektivisera arbetet med visuella effekter och spara tid i efterproduktionen
- Forskare kan spåra celler i mikroskopiska bilder eller övervaka miljöförändringar i satellitbilder
- För AV-fordon, inklusive förarlösa bilar, kan SAM 2 förbättra objektdetekteringen i komplexa trafiksituationer
- Naturvårdare kan använda SAM 2 för att övervaka djurpopulationer i stora områden
- Inom AR/VR kan det möjliggöra mer exakta interaktioner med virtuella objekt i livevideo
I enlighet med Metas engagemang för öppen forskning släpps SAM 2 som programvara med öppen källkod.
Detta omfattar inte bara modellen utan även det dataset som användes för att träna den.
Forskarna håller redan på att utforska olika sätt att hantera längre videor, förbättra prestandan för fina detaljer och minska den beräkningskraft som krävs för att köra modellen.
I takt med att tekniken för bildsegmentering utvecklas kommer den säkerligen att förändra hur vi interagerar med och analyserar videoinnehåll.
Från att göra komplexa redigeringsuppgifter mer tillgängliga till att möjliggöra nya former av visuell analys, flyttar SAM 2 fram gränserna för visuell manipulation.