Исследователи из Университета Суррея разработали метод преобразования фотографий собак в детальные 3D-модели.
Материал для обучения? Не настоящие собаки, а сгенерированные компьютером изображения из виртуального мира хитовой игры Grand Theft Auto V (GTA V).
Мойра Шутер, аспирантка, участвовавшая в исследовании, общая часть исследования"Наша модель была обучена на CGI-собаках, но мы смогли использовать ее для создания 3D-моделей скелета по фотографиям реальных животных. Это может помочь специалистам по охране природы обнаружить раненых диких животных или помочь художникам создать более реалистичных животных в метаверсии".
На сегодняшний день методы обучения ИИ работе с 3D-структурами предполагают использование реальных фотографий и данных о реальном положении объектов в 3D, часто получаемых с помощью технологии захвата движения.
Однако при применении этих методов к собакам или другим животным часто приходится отслеживать слишком много движений, а заставить собак вести себя достаточно долго очень сложно.
Для создания базы данных по собакам исследователи изменили код GTA V, заменив человеческих персонажей аватарами собак, что получило название "моддинг".
Исследователи подготовили 118 видеороликов, на которых запечатлены различные действия этих виртуальных собак - сидение, ходьба, лай и бег - в различных условиях окружающей среды.
В результате была создана "DigiDogs" - богатая база данных, содержащая 27 900 кадров движения собак, снятых так, как не позволял сбор данных в реальном мире.
После получения набора данных на следующих этапах была использована модель искусственного интеллекта DINOv2 компании Meta, обладающая сильными обобщающими способностями, которая была настроена с помощью DigiDogs для точного предсказания 3D-позы по изображениям RGB с одного ракурса.
Исследователи продемонстрировали, что использование набора данных DigiDogs для обучения позволило получить более точные и реалистичные 3D-позы собак, чем при обучении на реальных наборах данных, благодаря разнообразию внешности и действий собак.
Повышенная эффективность модели была подтверждена в ходе тщательной качественной и количественной оценки.
Хотя это исследование стало большим шагом вперед в области 3D-моделирования животных, команда признает, что предстоит еще много работы, особенно по улучшению того, как модель предсказывает аспект глубины изображений (координату z).
Шутер рассказал о потенциальном влиянии их работы: "3D-позиции содержат гораздо больше информации, чем 2D-фотографии. От экологии до анимации - у этого изящного решения так много возможных применений".
Сайт бумага получила приз за лучшую работу на зимней конференции IEEE/CVF по приложениям компьютерного зрения.
Это открывает возможности для повышения производительности моделей в таких областях, как сохранение дикой природы и рендеринг 3D-объектов для VR.