Investigadores de la Universidad de Surrey han desarrollado un método para transformar fotografías de perros en detallados modelos 3D.
¿El material de adiestramiento? No perros reales, sino imágenes generadas por ordenador del mundo virtual del exitoso juego Grand Theft Auto V (GTA V).
Moira Shooter, estudiante de investigación de posgrado que participa en el estudio, compartido del estudioNuestro modelo se entrenó con perros CGI, pero pudimos utilizarlo para crear modelos esqueléticos en 3D a partir de fotografías de animales reales. Eso podría permitir a los conservacionistas detectar animales salvajes heridos, o ayudar a los artistas a crear animales más realistas en el metaverso."
Hasta la fecha, los métodos para enseñar a la IA estructuras tridimensionales consisten en utilizar fotos reales junto con datos sobre las posiciones tridimensionales reales de los objetos, a menudo obtenidos mediante tecnología de captura de movimiento.
Sin embargo, cuando se aplican estas técnicas a perros u otros animales, suele haber demasiados movimientos que seguir, y conseguir que los perros se comporten durante el tiempo suficiente es difícil.
Para construir su conjunto de datos sobre perros, los investigadores alteraron el código de GTA V para sustituir sus personajes humanos por avatares caninos mediante un proceso conocido como "modding".
Los investigadores produjeron 118 vídeos que captaban a estos perros virtuales en diversas acciones -sentarse, caminar, ladrar y correr- en diferentes condiciones ambientales.
Esto culminó en la creación de "DigiDogs", una rica base de datos que contiene 27.900 fotogramas del movimiento de los perros, capturados de una forma que la recogida de datos en el mundo real no había permitido.
Con el conjunto de datos en la mano, en los siguientes pasos se utilizó el modelo de IA DINOv2 de Meta por su gran capacidad de generalización, ajustándolo con DigiDogs para predecir con precisión poses en 3D a partir de imágenes RGB de una sola vista.
Los investigadores demostraron que el uso del conjunto de datos DigiDogs para el entrenamiento daba como resultado poses de perros en 3D más precisas y realistas que las de los entrenados con conjuntos de datos del mundo real, gracias a la variedad de apariencias y acciones de los perros capturadas.
La mejora del rendimiento del modelo se confirmó mediante exhaustivas evaluaciones cualitativas y cuantitativas.
Aunque este estudio representa un gran paso adelante en el modelado 3D de animales, el equipo reconoce que aún queda trabajo por hacer, sobre todo para mejorar la forma en que el modelo predice el aspecto de profundidad de las imágenes (la coordenada z).
Shooter describió el impacto potencial de su trabajo diciendo: "Las poses en 3D contienen mucha más información que las fotografías en 2D. Desde la ecología a la animación, esta solución tiene muchas posibilidades".
En papel obtuvo el premio al mejor artículo en la Conferencia de Invierno IEEE/CVF sobre Aplicaciones de la Visión por Ordenador.
Abre la puerta a un mejor rendimiento de los modelos en áreas como la conservación de la vida salvaje y el renderizado de objetos 3D para RV.