Des chercheurs de l'université du Surrey ont mis au point une méthode permettant de transformer des photographies de chiens en modèles 3D détaillés.
Le matériel d'entraînement ? Pas de vrais chiens, mais des images générées par ordinateur dans le monde virtuel du jeu à succès Grand Theft Auto V (GTA V).
Moira Shooter, étudiante en recherche de troisième cycle, a participé à l'étude, partagée de l'étudeNotre modèle a été entraîné sur des chiens en images de synthèse, mais nous avons pu l'utiliser pour créer des modèles squelettiques en 3D à partir de photographies d'animaux réels. Cela pourrait permettre aux défenseurs de l'environnement de repérer les animaux sauvages blessés ou aider les artistes à créer des animaux plus réalistes dans le métavers".
Jusqu'à présent, les méthodes d'enseignement des structures 3D à l'IA impliquent l'utilisation de photos réelles accompagnées de données sur les positions 3D réelles des objets, souvent obtenues grâce à la technologie de la capture de mouvement.
Cependant, lorsque ces techniques sont appliquées à des chiens ou à d'autres animaux, il y a souvent trop de mouvements à suivre, et il est difficile d'obtenir des chiens qu'ils se comportent suffisamment longtemps.
Pour constituer leur ensemble de données sur les chiens, les chercheurs ont modifié le code de GTA V afin de remplacer les personnages humains par des avatars canins, par le biais d'un processus connu sous le nom de "modding".
Les chercheurs ont produit 118 vidéos montrant ces chiens virtuels dans diverses actions - assis, marchant, aboyant et courant - dans différentes conditions environnementales.
Ce travail a abouti à la création de "DigiDogs", une riche base de données contenant 27 900 images de mouvements de chiens, capturés d'une manière que la collecte de données dans le monde réel n'avait pas permise.
Avec l'ensemble de données en main, les étapes suivantes ont utilisé le modèle d'IA DINOv2 de Meta pour ses fortes capacités de généralisation, en l'affinant avec DigiDogs pour prédire avec précision les poses 3D à partir d'images RVB à vue unique.
Les chercheurs ont démontré que l'utilisation de l'ensemble de données DigiDogs pour l'entraînement permettait d'obtenir des poses de chiens en 3D plus précises et plus réalistes que celles obtenues à partir d'ensembles de données du monde réel, grâce à la variété des apparences et des actions des chiens capturés.
L'amélioration des performances du modèle a été confirmée par des évaluations qualitatives et quantitatives approfondies.
Bien que cette étude représente un grand pas en avant dans la modélisation 3D des animaux, l'équipe reconnaît qu'il y a encore du travail à faire, notamment pour améliorer la façon dont le modèle prédit l'aspect de la profondeur des images (la coordonnée z).
Shooter a décrit l'impact potentiel de leur travail en déclarant : "Les poses en 3D contiennent tellement plus d'informations que les photographies en 2D. De l'écologie à l'animation, cette solution astucieuse offre de nombreuses possibilités d'utilisation."
Les papier a remporté le prix du meilleur article lors de la conférence d'hiver IEEE/CVF sur les applications de la vision par ordinateur.
Il ouvre la voie à une meilleure performance des modèles dans des domaines tels que la conservation de la faune et de la flore et le rendu d'objets en 3D pour la RV.