Os investigadores da Universidade de Surrey desenvolveram um método para transformar fotografias de cães em modelos 3D pormenorizados.
O material de treino? Não são cães verdadeiros, mas sim imagens geradas por computador do mundo virtual do jogo de sucesso Grand Theft Auto V (GTA V).
Moira Shooter, uma estudante de investigação pós-graduada envolvida no estudo, partilhado do estudo"O nosso modelo foi treinado em cães CGI - mas conseguimos utilizá-lo para criar modelos esqueléticos 3D a partir de fotografias de animais reais. Isso poderia permitir aos conservacionistas detetar animais selvagens feridos ou ajudar os artistas a criar animais mais realistas no metaverso".
Até à data, os métodos de ensino da IA sobre estruturas 3D envolvem a utilização de fotografias reais juntamente com dados sobre as posições 3D reais dos objectos, frequentemente obtidos através da tecnologia de captura de movimentos.
No entanto, quando se aplicam estas técnicas a cães ou outros animais, é frequente haver demasiados movimentos para seguir e é difícil conseguir que os cães se comportem durante tempo suficiente.
Para construir o seu conjunto de dados sobre cães, os investigadores alteraram o código do GTA V para substituir as suas personagens humanas por avatares de cães através de um processo conhecido como "modding".
Os investigadores produziram 118 vídeos que capturam estes cães virtuais em várias acções - sentar, andar, ladrar e correr - em diferentes condições ambientais.
Isto culminou na criação do "DigiDogs", uma base de dados rica que contém 27 900 fotogramas de movimentos de cães, capturados de uma forma que a recolha de dados no mundo real não tinha permitido.
Com o conjunto de dados em mãos, os passos seguintes utilizaram o modelo de IA DINOv2 da Meta devido às suas fortes capacidades de generalização, afinando-o com o DigiDogs para prever com precisão poses 3D a partir de imagens RGB de visualização única.
Os investigadores demonstraram que a utilização do conjunto de dados DigiDogs para treino resultou em poses de cães em 3D mais precisas e realistas do que as treinadas em conjuntos de dados do mundo real, graças à variedade de aparências e acções de cães capturadas.
O desempenho melhorado do modelo foi confirmado através de avaliações qualitativas e quantitativas exaustivas.
Embora este estudo tenha representado um grande passo em frente na modelação de animais em 3D, a equipa reconhece que há mais trabalho a fazer, especialmente para melhorar a forma como o modelo prevê o aspeto de profundidade das imagens (a coordenada z).
Shooter descreveu o potencial impacto do seu trabalho, dizendo: "As poses 3D contêm muito mais informação do que as fotografias 2D. Da ecologia à animação, esta solução elegante tem muitas utilizações possíveis".
O papel ganhou o prémio de melhor artigo na Conferência de inverno IEEE/CVF sobre Aplicações da Visão por Computador.
Abre a porta a um melhor desempenho dos modelos em áreas como a conservação da vida selvagem e a renderização de objectos 3D para RV.