Модель SAM 2 компании Meta обеспечивает точную сегментацию видео за считанные секунды

Исследовательское подразделение компании Meta представило SAM 2 (Segment Anything Model 2), систему искусственного интеллекта, которая знаменует собой огромный прогресс в области анализа видео.

Эта новая модель расширяет возможности своего предшественника SAM по сегментации изображений, осваивая более сложную область видео.

Сегментация видео - способность идентифицировать и отслеживать конкретные объекты в движущейся сцене - уже давно является проблемой для искусственного интеллекта.

В то время как люди могут без труда следить за автомобилем, движущимся по дороге, или за человеком, идущим в толпе, системы искусственного интеллекта обычно испытывают трудности. Это огромная проблема для беспилотные автомобили и другие автономные транспортные средства (АВ), которым необходимо отслеживать движущиеся 3D-объекты в окружающей среде.

SAM 2 Цель - устранить этот пробел, приблизив понимание видео искусственным интеллектом к человеческому восприятию.

Система может идентифицировать и отслеживать практически любой объект на протяжении всего видео с минимальным участием пользователя - иногда всего одним щелчком мыши. Это открывает мир возможностей в самых разных областях - от монтажа фильмов до научных исследований.

Вот как Мета создала и протестировала SAM 2:

Команда создала методику под названием Promptable Visual Segmentation (PVS), позволяющую пользователям направлять ИИ простыми подсказками на любом видеокадре. Это означает, что система может адаптироваться к широкому спектру сценариев, от отслеживания конкретного человека в толпе до слежения за движением крыла птицы в полете.
Они построили архитектуру модели, включающую компоненты для обработки отдельных кадров, хранения информации об объектах во времени и создания точных сегментаций.
Ключевым элементом является модуль памяти, который позволяет SAM 2 поддерживать постоянное слежение, даже когда объекты временно исчезают из поля зрения.
Был создан массивный новый набор данных, содержащий более 50 000 видео и 35 миллионов помеченных кадров, что превосходит предыдущие наборы данных для сегментации видео. T
Его набор данных, названный SA-V, охватывает широкий спектр типов объектов, размеров и сценариев, что повышает способность модели к обобщению в новых ситуациях.
Модель прошла длительное обучение и тестирование на 17 различных наборах видеоданных, от записей с камер наблюдения до медицинских снимков.
SAM 2 превзошел существующие современные методы в задачах сегментации видеообъектов с использованием полунаблюдения, достигнув среднего улучшения на 7,5% в оценках J&F (стандартная метрика качества сегментации).

Видеоплеер

Media error: Format(s) not supported or source(s) not found

Скачать файл: https://dailyai.com/wp-content/uploads/2024/07/An9rqhh8jLAD81wdPLApEcu-1Z2NzXx4_528PrvelbMmWVgTvtk8DgdwDHRYohgxxotkX_WENwyB-eegqi3EQXlQ.mp4?_=1

00:00

Используйте клавиши вверх/вниз, чтобы увеличить или уменьшить громкость.

Выше: Сегментация изображений для сложных видеоклипов позволяет выделять различные фигуры за считанные секунды.

В кинопроизводстве SAM 2 может упростить работу с визуальными эффектами и сэкономить время на постпроизводстве.
Ученые могут отслеживать клетки на микроскопических кадрах или следить за изменениями окружающей среды на спутниковых снимках.
Для беспилотных автомобилей, включая автомобили без водителя, SAM 2 может улучшить обнаружение объектов в сложных дорожных сценариях.
Специалисты по охране дикой природы могут использовать SAM 2 для мониторинга популяций животных на обширных территориях.
В AR/VR он может обеспечить более точное взаимодействие с виртуальными объектами в живом видео.

В соответствии с приверженностью Meta к открытым исследованиям, SAM 2 выпускается как программное обеспечение с открытым исходным кодом.

Это касается не только модели, но и набора данных, использованного для ее обучения.

Исследователи уже изучают способы обработки более длинных видео, повышения производительности при работе с мелкими деталями и снижения вычислительной мощности, необходимой для работы модели.

По мере развития технологии сегментации изображений она, несомненно, изменит то, как мы взаимодействуем с видеоконтентом и анализируем его.

SAM 2 расширяет границы визуальных манипуляций, делая сложные задачи редактирования более доступными и позволяя использовать новые формы визуального анализа.

Модель SAM 2 компании Meta обеспечивает точную сегментацию видео за считанные секунды

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Модель SAM 2 компании Meta обеспечивает точную сегментацию видео за считанные секунды

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI