Metas forskningsafdeling har introduceret SAM 2 (Segment Anything Model 2), et AI-system, der markerer et stort fremskridt inden for videoanalyse.
Denne nye model udvider sin forgænger SAM's billedsegmenteringsevner og vover sig ud i det mere komplekse videodomæne.
Videosegmentering - evnen til at identificere og spore specifikke objekter i en scene i bevægelse - har længe været en udfordring for AI.
Mens mennesker ubesværet kan følge en bil, der bevæger sig gennem trafikken, eller en person, der går gennem en menneskemængde, har AI-systemer en tendens til at kæmpe. Det er et kæmpe problem for førerløse biler og andre autonome køretøjer (AV'er), som har brug for at spore bevægelige 3D-objekter i deres omgivelser.
SAM 2 har til formål at bygge bro over denne kløft og bringe AI's forståelse af video tættere på den menneskelige opfattelse.
Systemet kan identificere og spore stort set ethvert objekt i en video med minimal brugerinput - nogle gange så lidt som et enkelt klik. Det åbner op for en verden af muligheder inden for alt fra filmredigering til videnskabelig forskning.
Sådan skabte og testede Meta SAM 2:
- Teamet skabte en teknik kaldet Promptable Visual Segmentation (PVS), som giver brugerne mulighed for at guide den kunstige intelligens med enkle stikord på ethvert videobillede. Det betyder, at systemet kan tilpasse sig en lang række scenarier, lige fra at spore en bestemt person i en menneskemængde til at følge bevægelsen af en fugls vinge under flyvning.
- De byggede en modelarkitektur, der omfattede komponenter til behandling af individuelle billeder, lagring af oplysninger om objekter over tid og generering af præcise segmenteringer.
- Et nøgleelement er hukommelsesmodulet, som gør det muligt for SAM 2 at opretholde konsekvent sporing, selv når objekter midlertidigt forsvinder ud af syne.
- Der blev skabt et massivt nyt datasæt med over 50.000 videoer og 35 millioner mærkede billeder, som overgår tidligere datasæt med videosegmentering. T
- Dette datasæt, kaldet SA-V, dækker et bredt spektrum af objekttyper, størrelser og scenarier, hvilket forbedrer modellens evne til at generalisere til nye situationer.
- Modellen gennemgik omfattende træning og test på tværs af 17 forskellige videodatasæt, fra bilkameraoptagelser til medicinsk billedbehandling.
- SAM 2 overgik eksisterende state-of-the-art-metoder i semi-overvågede videoobjektsegmenteringsopgaver og opnåede en gennemsnitlig forbedring på 7,5% i J&F-score (en standardmåling for segmenteringskvalitet).
Ovenfor: Billedsegmentering til komplekse videoklip adskiller forskellige former på få sekunder.
- I filmproduktion kan SAM 2 effektivisere arbejdet med visuelle effekter og spare tid i efterproduktionen.
- Forskere kan spore celler i mikroskopi-optagelser eller overvåge miljøforandringer i satellitbilleder
- For AV'er, herunder førerløse biler, kan SAM 2 forbedre objektregistrering i komplekse trafikscenarier
- Dyreværnsfolk kan bruge SAM 2 til at overvåge dyrebestande i store områder
- I AR/VR kan det muliggøre mere præcise interaktioner med virtuelle objekter i live video
I overensstemmelse med Metas engagement i åben forskning udgives SAM 2 som open source-software.
Det gælder ikke kun modellen, men også det datasæt, der er brugt til at træne den.
Forskerne er allerede i gang med at undersøge, hvordan man kan håndtere længere videoer, forbedre ydeevnen på fine detaljer og reducere den computerkraft, der kræves for at køre modellen.
Efterhånden som billedsegmenteringsteknologien modnes, vil den helt sikkert ændre den måde, vi interagerer med og analyserer videoindhold på.
Fra at gøre komplekse redigeringsopgaver mere tilgængelige til at muliggøre nye former for visuel analyse flytter SAM 2 grænserne for visuel manipulation.