Модель SAM 2 компании Meta обеспечивает точную сегментацию видео за считанные секунды

31 июля 2024 года

  • Meta Research выпустила SAM 2, сложную модель искусственного интеллекта для сегментации изображений
  • Он позволяет сегментировать сложные изображения за считанные секунды с помощью нескольких щелчков мыши.
  • Это может изменить такие области, как видеомонтаж, научные исследования и аудиовизуальные средства.
ИИ мета

Исследовательское подразделение компании Meta представило SAM 2 (Segment Anything Model 2), систему искусственного интеллекта, которая знаменует собой огромный прогресс в области анализа видео.

Эта новая модель расширяет возможности своего предшественника SAM по сегментации изображений, осваивая более сложную область видео.

Сегментация видео - способность идентифицировать и отслеживать конкретные объекты в движущейся сцене - уже давно является проблемой для искусственного интеллекта. 

В то время как люди могут без труда следить за автомобилем, движущимся по дороге, или за человеком, идущим в толпе, системы искусственного интеллекта обычно испытывают трудности. Это огромная проблема для беспилотные автомобили и другие автономные транспортные средства (АВ), которым необходимо отслеживать движущиеся 3D-объекты в окружающей среде.

SAM 2 Цель - устранить этот пробел, приблизив понимание видео искусственным интеллектом к человеческому восприятию.

Система может идентифицировать и отслеживать практически любой объект на протяжении всего видео с минимальным участием пользователя - иногда всего одним щелчком мыши. Это открывает мир возможностей в самых разных областях - от монтажа фильмов до научных исследований.

Вот как Мета создала и протестировала SAM 2:

  1. Команда создала методику под названием Promptable Visual Segmentation (PVS), позволяющую пользователям направлять ИИ простыми подсказками на любом видеокадре. Это означает, что система может адаптироваться к широкому спектру сценариев, от отслеживания конкретного человека в толпе до слежения за движением крыла птицы в полете.
  2. Они построили архитектуру модели, включающую компоненты для обработки отдельных кадров, хранения информации об объектах во времени и создания точных сегментаций.
  3. Ключевым элементом является модуль памяти, который позволяет SAM 2 поддерживать постоянное слежение, даже когда объекты временно исчезают из поля зрения.
  4. Был создан массивный новый набор данных, содержащий более 50 000 видео и 35 миллионов помеченных кадров, что превосходит предыдущие наборы данных для сегментации видео. T
  5. Его набор данных, названный SA-V, охватывает широкий спектр типов объектов, размеров и сценариев, что повышает способность модели к обобщению в новых ситуациях.
  6. Модель прошла длительное обучение и тестирование на 17 различных наборах видеоданных, от записей с камер наблюдения до медицинских снимков.
  7. SAM 2 превзошел существующие современные методы в задачах сегментации видеообъектов с использованием полунаблюдения, достигнув среднего улучшения на 7,5% в оценках J&F (стандартная метрика качества сегментации).

Выше: Сегментация изображений для сложных видеоклипов позволяет выделять различные фигуры за считанные секунды.

  • В кинопроизводстве SAM 2 может упростить работу с визуальными эффектами и сэкономить время на постпроизводстве.
  • Ученые могут отслеживать клетки на микроскопических кадрах или следить за изменениями окружающей среды на спутниковых снимках.
  • Для беспилотных автомобилей, включая автомобили без водителя, SAM 2 может улучшить обнаружение объектов в сложных дорожных сценариях.
  • Специалисты по охране дикой природы могут использовать SAM 2 для мониторинга популяций животных на обширных территориях.
  • В AR/VR он может обеспечить более точное взаимодействие с виртуальными объектами в живом видео.

В соответствии с приверженностью Meta к открытым исследованиям, SAM 2 выпускается как программное обеспечение с открытым исходным кодом. 

Это касается не только модели, но и набора данных, использованного для ее обучения. 

Исследователи уже изучают способы обработки более длинных видео, повышения производительности при работе с мелкими деталями и снижения вычислительной мощности, необходимой для работы модели.

По мере развития технологии сегментации изображений она, несомненно, изменит то, как мы взаимодействуем с видеоконтентом и анализируем его.

SAM 2 расширяет границы визуальных манипуляций, делая сложные задачи редактирования более доступными и позволяя использовать новые формы визуального анализа. 

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения