Исследовательское подразделение компании Meta представило SAM 2 (Segment Anything Model 2), систему искусственного интеллекта, которая знаменует собой огромный прогресс в области анализа видео.
Эта новая модель расширяет возможности своего предшественника SAM по сегментации изображений, осваивая более сложную область видео.
Сегментация видео - способность идентифицировать и отслеживать конкретные объекты в движущейся сцене - уже давно является проблемой для искусственного интеллекта.
В то время как люди могут без труда следить за автомобилем, движущимся по дороге, или за человеком, идущим в толпе, системы искусственного интеллекта обычно испытывают трудности. Это огромная проблема для беспилотные автомобили и другие автономные транспортные средства (АВ), которым необходимо отслеживать движущиеся 3D-объекты в окружающей среде.
SAM 2 Цель - устранить этот пробел, приблизив понимание видео искусственным интеллектом к человеческому восприятию.
Система может идентифицировать и отслеживать практически любой объект на протяжении всего видео с минимальным участием пользователя - иногда всего одним щелчком мыши. Это открывает мир возможностей в самых разных областях - от монтажа фильмов до научных исследований.
Вот как Мета создала и протестировала SAM 2:
- Команда создала методику под названием Promptable Visual Segmentation (PVS), позволяющую пользователям направлять ИИ простыми подсказками на любом видеокадре. Это означает, что система может адаптироваться к широкому спектру сценариев, от отслеживания конкретного человека в толпе до слежения за движением крыла птицы в полете.
- Они построили архитектуру модели, включающую компоненты для обработки отдельных кадров, хранения информации об объектах во времени и создания точных сегментаций.
- Ключевым элементом является модуль памяти, который позволяет SAM 2 поддерживать постоянное слежение, даже когда объекты временно исчезают из поля зрения.
- Был создан массивный новый набор данных, содержащий более 50 000 видео и 35 миллионов помеченных кадров, что превосходит предыдущие наборы данных для сегментации видео. T
- Его набор данных, названный SA-V, охватывает широкий спектр типов объектов, размеров и сценариев, что повышает способность модели к обобщению в новых ситуациях.
- Модель прошла длительное обучение и тестирование на 17 различных наборах видеоданных, от записей с камер наблюдения до медицинских снимков.
- SAM 2 превзошел существующие современные методы в задачах сегментации видеообъектов с использованием полунаблюдения, достигнув среднего улучшения на 7,5% в оценках J&F (стандартная метрика качества сегментации).
Выше: Сегментация изображений для сложных видеоклипов позволяет выделять различные фигуры за считанные секунды.
- В кинопроизводстве SAM 2 может упростить работу с визуальными эффектами и сэкономить время на постпроизводстве.
- Ученые могут отслеживать клетки на микроскопических кадрах или следить за изменениями окружающей среды на спутниковых снимках.
- Для беспилотных автомобилей, включая автомобили без водителя, SAM 2 может улучшить обнаружение объектов в сложных дорожных сценариях.
- Специалисты по охране дикой природы могут использовать SAM 2 для мониторинга популяций животных на обширных территориях.
- В AR/VR он может обеспечить более точное взаимодействие с виртуальными объектами в живом видео.
В соответствии с приверженностью Meta к открытым исследованиям, SAM 2 выпускается как программное обеспечение с открытым исходным кодом.
Это касается не только модели, но и набора данных, использованного для ее обучения.
Исследователи уже изучают способы обработки более длинных видео, повышения производительности при работе с мелкими деталями и снижения вычислительной мощности, необходимой для работы модели.
По мере развития технологии сегментации изображений она, несомненно, изменит то, как мы взаимодействуем с видеоконтентом и анализируем его.
SAM 2 расширяет границы визуальных манипуляций, делая сложные задачи редактирования более доступными и позволяя использовать новые формы визуального анализа.