Forskare från University of Surrey har utvecklat en metod för att omvandla fotografier av hundar till detaljerade 3D-modeller.
Träningsmaterialet? Inte riktiga hundar, utan snarare datorgenererade bilder från den virtuella världen i succéspelet Grand Theft Auto V (GTA V).
Moira Shooter, en forskarstuderande som deltog i studien, delade av studien"Vår modell tränades på CGI-hundar - men vi kunde använda den för att skapa 3D-skelettmodeller från fotografier av riktiga djur. Det skulle kunna låta naturvårdare upptäcka skadade vilda djur eller hjälpa konstnärer att skapa mer realistiska djur i metaversen."
Hittills har metoderna för att lära AI om 3D-strukturer gått ut på att använda riktiga foton tillsammans med data om objektens faktiska 3D-positioner, ofta erhållna med hjälp av motion capture-teknik.
Men när man tillämpar dessa tekniker på hundar eller andra djur är det ofta för många rörelser att följa, och det är svårt att få hundar att bete sig tillräckligt länge.
För att bygga upp sitt hunddataset ändrade forskarna GTA V:s kod så att de mänskliga karaktärerna ersattes med hundavatarer genom en process som kallas "modding".
Forskarna producerade 118 videor som fångade dessa virtuella hundar i olika handlingar - sittande, gående, skällande och springande - under olika miljöförhållanden.
Detta kulminerade i skapandet av "DigiDogs", en rik databas som innehåller 27.900 bilder av hundars rörelser, fångade på ett sätt som datainsamling i verkligheten inte hade tillåtit.
Med datasetet i handen använde nästa steg Metas DINOv2 AI-modell för sina starka generaliseringsförmågor och finjusterade den med DigiDogs för att exakt förutsäga 3D-poser från RGB-bilder med en enda vy.
Forskarna visade att träning med DigiDogs dataset resulterade i mer exakta och verklighetstrogna 3D-hundposeringar än träning med verkliga dataset, tack vare variationen i hundarnas utseenden och handlingar.
Modellens förbättrade prestanda bekräftades genom noggranna kvalitativa och kvantitativa utvärderingar.
Även om denna studie innebar ett stort steg framåt för 3D-djurmodellering, erkänner teamet att det finns mer arbete att göra, särskilt när det gäller att förbättra hur modellen förutsäger djupaspekten av bilderna (z-koordinaten).
Shooter beskrev den potentiella effekten av deras arbete och sa: "3D-poser innehåller så mycket mer information än 2D-fotografier. Från ekologi till animering - den här snygga lösningen har så många möjliga användningsområden."
Den papper vann priset för bästa uppsats vid IEEE/CVF Winter Conference on Applications of Computer Vision.
Det öppnar dörren för bättre modellprestanda inom områden som naturvård och 3D-rendering av objekt för VR.