O modelo SAM 2 da Meta permite uma segmentação precisa do vídeo em segundos

31 de julho de 2024

  • A Meta Research lançou o SAM 2, um modelo de IA complexo para segmentação de imagens
  • Permite a segmentação de imagens complexas em segundos, com apenas alguns cliques
  • Isto poderá transformar áreas como a edição de vídeo, a investigação científica e os AV
Meta de IA

A divisão de investigação da Meta apresentou o SAM 2 (Segment Anything Model 2), um sistema de IA que representa um enorme avanço na análise de vídeo.

Este novo modelo expande as capacidades de segmentação de imagem do seu antecessor SAM, aventurando-se no domínio mais complexo do vídeo.

A segmentação de vídeo - a capacidade de identificar e seguir objectos específicos numa cena em movimento - é há muito um desafio para a IA. 

Enquanto os seres humanos conseguem seguir sem esforço um carro que se desloca no trânsito ou uma pessoa que caminha no meio de uma multidão, os sistemas de IA tendem a ter dificuldades. Este é um enorme problema para automóveis sem condutor e outros veículos autónomos (AVs), que necessitam de seguir objectos 3D em movimento nos seus ambientes.

SAM 2 tem como objetivo colmatar esta lacuna, aproximando a compreensão que a IA tem do vídeo da perceção ao nível humano.

O sistema pode identificar e seguir praticamente qualquer objeto ao longo de um vídeo com o mínimo de intervenção do utilizador - por vezes, apenas com um clique. Isto abre um mundo de possibilidades em domínios que vão desde a edição de filmes à investigação científica.

Eis como a Meta criou e testou o SAM 2:

  1. A equipa criou uma técnica designada por Segmentação Visual Promptable (PVS), que permite aos utilizadores guiar a IA com pistas simples em qualquer fotograma de vídeo. Isto significa que o sistema pode adaptar-se a uma vasta gama de cenários, desde localizar uma pessoa específica numa multidão até seguir o movimento da asa de um pássaro em voo.
  2. Construíram uma arquitetura de modelo que incluía componentes para processar fotogramas individuais, armazenar informações sobre objectos ao longo do tempo e gerar segmentações precisas.
  3. Um elemento chave é o módulo de memória, que permite ao SAM 2 manter um seguimento consistente mesmo quando os objectos desaparecem temporariamente da vista.
  4. Foi criado um novo conjunto de dados maciço, contendo mais de 50 000 vídeos e 35 milhões de fotogramas marcados, superando os conjuntos de dados de segmentação de vídeo anteriores. T
  5. Este conjunto de dados, denominado SA-V, abrange um vasto espetro de tipos de objectos, tamanhos e cenários, aumentando a capacidade do modelo para se generalizar a novas situações.
  6. O modelo foi submetido a treinos e testes exaustivos em 17 conjuntos de dados de vídeo diferentes, desde imagens de câmaras de automóveis a imagens médicas.
  7. O SAM 2 superou os métodos existentes do estado da arte em tarefas de segmentação semi-supervisionada de objectos de vídeo, alcançando uma melhoria média de 7,5% nas pontuações J&F (uma métrica padrão para a qualidade da segmentação).

Acima: A segmentação de imagens para clips de vídeo complexos separa diferentes formas em segundos.

  • Na produção cinematográfica, o SAM 2 poderá simplificar o trabalho de efeitos visuais, poupando tempo na pós-produção
  • Os cientistas podem seguir células em imagens de microscopia ou monitorizar alterações ambientais em imagens de satélite
  • Para os AV, incluindo os veículos sem condutor, o SAM 2 poderá melhorar a deteção de objectos em cenários de tráfego complexos
  • Os conservacionistas da vida selvagem poderiam utilizar o SAM 2 para monitorizar as populações animais em vastas áreas
  • Em AR/VR, pode permitir interacções mais precisas com objectos virtuais em vídeo em direto

Fiel ao compromisso da Meta com a investigação aberta, o SAM 2 está a ser lançado como software de código aberto. 

Isto inclui não só o modelo, mas também o conjunto de dados utilizado para o treinar. 

Os investigadores já estão a explorar formas de lidar com vídeos mais longos, melhorar o desempenho em detalhes finos e reduzir a potência computacional necessária para executar o modelo.

À medida que a tecnologia de segmentação de imagens amadurece, irá certamente transformar a forma como interagimos e analisamos o conteúdo de vídeo.

Desde tornar mais acessíveis tarefas de edição complexas até permitir novas formas de análise visual, o SAM 2 ultrapassa os limites da manipulação visual. 

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições