Metas forskningsavdeling har introdusert SAM 2 (Segment Anything Model 2), et AI-system som markerer et stort fremskritt innen videoanalyse.
Denne nye modellen utvider forgjengeren SAMs ferdigheter innen bildesegmentering, og våger seg inn på det mer komplekse videodomenet.
Videosegmentering - evnen til å identifisere og spore spesifikke objekter i en scene i bevegelse - har lenge vært en utfordring for kunstig intelligens.
Mens mennesker uten problemer kan følge en bil i trafikken eller en person som går gjennom en folkemengde, har AI-systemer en tendens til å slite. Dette er et stort problem for førerløse biler og andre autonome kjøretøy (AV), som har behov for å spore bevegelige 3D-objekter i omgivelsene sine.
SAM 2 Målet er å bygge bro over dette gapet og bringe AIs forståelse av video nærmere menneskelig persepsjon.
Systemet kan identifisere og spore praktisk talt alle objekter i en video med minimal brukerinput - noen ganger så lite som et enkelt klikk. Dette åpner for en verden av muligheter innen alt fra filmredigering til vitenskapelig forskning.
Slik opprettet og testet Meta SAM 2:
- Teamet utviklet en teknikk kalt Promptable Visual Segmentation (PVS), som gjør det mulig for brukerne å veilede den kunstige intelligensen med enkle ledetråder i alle videobilder. Det betyr at systemet kan tilpasse seg et bredt spekter av scenarier, fra å spore en bestemt person i en folkemengde til å følge bevegelsene til en fugl i flukt.
- De bygget en modellarkitektur som inkluderte komponenter for behandling av individuelle bilder, lagring av informasjon om objekter over tid og generering av presise segmenteringer.
- Et nøkkelelement er minnemodulen, som gjør at SAM 2 kan opprettholde konsekvent sporing selv når objekter midlertidig forsvinner ut av syne.
- Det ble opprettet et massivt nytt datasett som inneholder over 50 000 videoer og 35 millioner merkede bilder, noe som overgår tidligere datasett for videosegmentering. T
- Dette datasettet, kalt SA-V, dekker et bredt spekter av objekttyper, størrelser og scenarier, noe som forbedrer modellens evne til å generalisere til nye situasjoner.
- Modellen gjennomgikk omfattende trening og testing på tvers av 17 ulike videodatasett, fra bilkameraopptak til medisinsk bildebehandling.
- SAM 2 utkonkurrerte eksisterende toppmoderne metoder i semioppsynte segmenteringsoppgaver for videoobjekter, og oppnådde en gjennomsnittlig forbedring på 7,5% i J&F-score (et standardmål for segmenteringskvalitet).
Ovenfor: Bildesegmentering for komplekse videoklipp skiller ut ulike former på få sekunder.
- I filmproduksjon kan SAM 2 effektivisere arbeidet med visuelle effekter og spare tid i etterproduksjonen
- Forskere kan spore celler i mikroskopibilder eller overvåke miljøendringer i satellittbilder
- For AV-biler, inkludert førerløse biler, kan SAM 2 forbedre objektdeteksjonen i komplekse trafikkscenarier
- Naturvernere kan bruke SAM 2 til å overvåke dyrebestander i store områder
- I AR/VR kan det muliggjøre mer nøyaktig interaksjon med virtuelle objekter i live video
I tråd med Metas forpliktelse til åpen forskning lanseres SAM 2 som programvare med åpen kildekode.
Dette omfatter ikke bare modellen, men også datasettet som brukes til å trene den.
Forskerne er allerede i gang med å utforske måter å håndtere lengre videoer på, forbedre ytelsen på fine detaljer og redusere beregningskraften som kreves for å kjøre modellen.
Etter hvert som bildesegmenteringsteknologien modnes, vil den helt sikkert forandre måten vi samhandler med og analyserer videoinnhold på.
SAM 2 flytter grensene for visuell manipulering, fra å gjøre komplekse redigeringsoppgaver mer tilgjengelige til å muliggjøre nye former for visuell analyse.