Il modello SAM 2 di Meta consente una segmentazione video accurata in pochi secondi

31 luglio 2024

  • Meta Research ha rilasciato SAM 2, un modello AI complesso per la segmentazione delle immagini
  • Consente di segmentare immagini complesse in pochi secondi con pochi clic.
  • Questo potrebbe trasformare settori come l'editing video, la ricerca scientifica e gli AV.
IA meta

La divisione di ricerca di Meta ha presentato SAM 2 (Segment Anything Model 2), un sistema di intelligenza artificiale che segna un enorme progresso nell'analisi dei video.

Questo nuovo modello espande le capacità di segmentazione delle immagini del suo predecessore SAM, avventurandosi nel dominio più complesso dei video.

La segmentazione dei video - la capacità di identificare e tracciare oggetti specifici in una scena in movimento - è da tempo una sfida per l'intelligenza artificiale. 

Mentre gli esseri umani possono seguire senza sforzo un'auto che si muove nel traffico o una persona che cammina tra la folla, i sistemi di intelligenza artificiale tendono a fare fatica. Questo è un problema enorme per auto senza conducente e altri veicoli autonomi (AV), che devono seguire gli oggetti 3D in movimento nei loro ambienti.

SAM 2 mira a colmare questo divario, avvicinando la comprensione dei video da parte dell'intelligenza artificiale alla percezione umana.

Il sistema è in grado di identificare e tracciare virtualmente qualsiasi oggetto in un video con un input minimo da parte dell'utente, a volte anche con un solo clic. Questo apre un mondo di possibilità in campi che vanno dal montaggio cinematografico alla ricerca scientifica.

Ecco come Meta ha creato e testato SAM 2:

  1. Il team ha creato una tecnica chiamata Promptable Visual Segmentation (PVS), che consente agli utenti di guidare l'intelligenza artificiale con semplici indicazioni su qualsiasi fotogramma video. Ciò significa che il sistema può adattarsi a un'ampia gamma di scenari, dal seguire una persona specifica in mezzo alla folla al seguire il movimento delle ali di un uccello in volo.
  2. Hanno costruito un'architettura del modello che comprende componenti per l'elaborazione di singoli fotogrammi, la memorizzazione di informazioni sugli oggetti nel tempo e la generazione di segmentazioni precise.
  3. Un elemento chiave è il modulo di memoria, che consente a SAM 2 di mantenere un tracciamento coerente anche quando gli oggetti scompaiono temporaneamente dalla vista.
  4. È stato creato un nuovo enorme set di dati, contenente oltre 50.000 video e 35 milioni di fotogrammi etichettati, che supera i precedenti set di dati di segmentazione video. T
  5. Il suo set di dati, denominato SA-V, copre un ampio spettro di tipi di oggetti, dimensioni e scenari, migliorando la capacità del modello di generalizzarsi a nuove situazioni.
  6. Il modello è stato sottoposto a un addestramento e a test approfonditi su 17 diversi set di dati video, dalle riprese delle telecamere di bordo alle immagini mediche.
  7. SAM 2 ha superato lo stato dell'arte dei metodi esistenti in compiti di segmentazione di oggetti video semi-supervisionati, ottenendo un miglioramento medio di 7,5% nei punteggi J&F (una metrica standard per la qualità della segmentazione).

Sopra: La segmentazione delle immagini per videoclip complessi segmenta forme diverse in pochi secondi.

  • Nella produzione cinematografica, SAM 2 potrebbe semplificare il lavoro sugli effetti visivi, risparmiando tempo in post-produzione.
  • Gli scienziati potrebbero seguire le cellule nelle riprese al microscopio o monitorare i cambiamenti ambientali nelle immagini satellitari.
  • Per gli AV, comprese le auto senza conducente, SAM 2 potrebbe migliorare il rilevamento degli oggetti in scenari di traffico complessi.
  • Gli ambientalisti potrebbero utilizzare il SAM 2 per monitorare le popolazioni di animali in vaste aree.
  • In AR/VR, può consentire interazioni più accurate con gli oggetti virtuali in video live.

Fedele all'impegno di Meta per la ricerca aperta, SAM 2 viene rilasciato come software open-source. 

Questo include non solo il modello, ma anche il set di dati utilizzato per addestrarlo. 

I ricercatori stanno già esplorando modi per gestire video più lunghi, migliorare le prestazioni sui dettagli fini e ridurre la potenza di calcolo necessaria per eseguire il modello.

La maturazione della tecnologia di segmentazione delle immagini trasformerà sicuramente il modo in cui interagiamo con i contenuti video e li analizziamo.

Rendendo più accessibili complesse operazioni di editing e consentendo nuove forme di analisi visiva, SAM 2 si spinge oltre i confini della manipolazione visiva. 

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni