Forskere fra University of Surrey har utviklet en metode for å forvandle fotografier av hunder til detaljerte 3D-modeller.
Treningsmateriellet? Ikke ekte hunder, men datagenererte bilder fra den virtuelle verdenen i det populære spillet Grand Theft Auto V (GTA V).
Moira Shooter, en doktorgradsstudent som deltok i studien, delt av studien"Modellen vår ble trent opp på CGI-hunder - men vi kunne bruke den til å lage 3D-skjelettmodeller fra fotografier av ekte dyr. Det kan gjøre det mulig for naturvernere å oppdage skadde dyr, eller hjelpe kunstnere med å skape mer realistiske dyr i metaverse."
Hittil har metoder for å lære kunstig intelligens om 3D-strukturer gått ut på å bruke ekte bilder sammen med data om objektenes faktiske 3D-posisjoner, ofte innhentet ved hjelp av motion capture-teknologi.
Men når man bruker disse teknikkene på hunder eller andre dyr, er det ofte for mange bevegelser å spore, og det er vanskelig å få hundene til å oppføre seg lenge nok.
For å bygge hundedatasettet endret forskerne GTA V-koden for å erstatte de menneskelige karakterene med hundeavatarer gjennom en prosess kjent som "modding".
Forskerne produserte 118 videoer der de virtuelle hundene ble filmet i ulike situasjoner - sittende, gående, bjeffende og løpende - under ulike miljøforhold.
Dette kulminerte i opprettelsen av "DigiDogs", en rikholdig database som inneholder 27 900 bilder av hundens bevegelser, fanget opp på en måte som datainnsamlingen i den virkelige verden ikke hadde tillatt.
Med datasettet i hånden ble Metas DINOv2 AI-modell brukt for sine sterke generaliseringsevner, og den ble finjustert med DigiDogs for å forutsi 3D-positurer nøyaktig fra RGB-bilder med én visning.
Forskerne demonstrerte at bruk av DigiDogs datasett for trening resulterte i mer nøyaktige og naturtro 3D-hundepositurer enn de som ble trent på virkelige datasett, takket være variasjonen i hundenes utseende og handlinger.
Modellens forbedrede ytelse ble bekreftet gjennom grundige kvalitative og kvantitative evalueringer.
Selv om denne studien representerte et stort skritt fremover innen 3D-dyremodellering, erkjenner teamet at det er mer arbeid som må gjøres, spesielt når det gjelder å forbedre hvordan modellen forutsier dybdeaspektet i bildene (z-koordinaten).
Shooter beskrev den potensielle effekten av arbeidet deres og sa: "3D-fotografier inneholder så mye mer informasjon enn 2D-fotografier. Denne smarte løsningen har så mange mulige bruksområder, fra økologi til animasjon."
Den papir vant prisen for beste artikkel på IEEE/CVF Winter Conference on Applications of Computer Vision.
Det åpner for bedre modellytelse på områder som bevaring av dyreliv og 3D-objektgjengivelse for VR.