I ricercatori dell'Università del Surrey hanno sviluppato un metodo per trasformare le fotografie dei cani in modelli 3D dettagliati.
Il materiale per l'addestramento? Non cani veri, ma immagini generate al computer dal mondo virtuale del gioco di successo Grand Theft Auto V (GTA V).
Moira Shooter, una studentessa di ricerca post-laurea coinvolta nello studio, condiviso dello studioIl nostro modello è stato addestrato su cani in CGI, ma siamo stati in grado di usarlo per creare modelli scheletrici in 3D da fotografie di animali reali. Questo potrebbe consentire agli ambientalisti di individuare animali selvatici feriti o aiutare gli artisti a creare animali più realistici nel metaverso".
Ad oggi, i metodi per insegnare all'intelligenza artificiale le strutture 3D prevedono l'utilizzo di foto reali insieme a dati sulle posizioni 3D effettive degli oggetti, spesso ottenuti attraverso la tecnologia di motion capture.
Tuttavia, quando si applicano queste tecniche ai cani o ad altri animali, i movimenti da tracciare sono spesso troppi e far comportare i cani per un tempo sufficiente è difficile.
Per costruire il loro set di dati sui cani, i ricercatori hanno alterato il codice di GTA V per sostituire i personaggi umani con avatar di cani attraverso un processo noto come "modding".
I ricercatori hanno prodotto 118 video che riprendevano questi cani virtuali in varie azioni - seduti, a piedi, abbaiando e correndo - in diverse condizioni ambientali.
Ciò è culminato nella creazione di "DigiDogs", un ricco database contenente 27.900 fotogrammi del movimento dei cani, catturati in un modo che la raccolta di dati nel mondo reale non aveva permesso.
Con il set di dati in mano, le fasi successive hanno utilizzato il modello AI DINOv2 di Meta per le sue forti capacità di generalizzazione, perfezionandolo con DigiDogs per prevedere con precisione le pose 3D da immagini RGB a vista singola.
I ricercatori hanno dimostrato che l'utilizzo del set di dati DigiDogs per l'addestramento ha permesso di ottenere pose di cani 3D più accurate e realistiche rispetto a quelle addestrate su set di dati del mondo reale, grazie alla varietà di apparizioni e azioni dei cani catturati.
Il miglioramento delle prestazioni del modello è stato confermato da approfondite valutazioni qualitative e quantitative.
Sebbene questo studio rappresenti un grande passo avanti nella modellazione 3D degli animali, il team riconosce che c'è ancora del lavoro da fare, soprattutto per migliorare il modo in cui il modello predice l'aspetto della profondità delle immagini (la coordinata z).
Shooter ha descritto l'impatto potenziale del suo lavoro, affermando: "Le pose in 3D contengono molte più informazioni delle fotografie in 2D. Dall'ecologia all'animazione, questa soluzione ha tantissime possibilità di utilizzo".
Il carta ha vinto il premio Best Paper alla IEEE/CVF Winter Conference on Applications of Computer Vision.
Questo apre le porte a migliori prestazioni dei modelli in settori come la conservazione della fauna selvatica e il rendering di oggetti 3D per la VR.