Forscher der Universität Surrey haben eine Methode entwickelt, um Fotos von Hunden in detaillierte 3D-Modelle umzuwandeln.
Das Trainingsmaterial? Keine echten Hunde, sondern computergenerierte Bilder aus der virtuellen Welt des Spielhits Grand Theft Auto V (GTA V).
Moira Shooter, eine an der Studie beteiligte Postgraduiertenstudentin, der Studie geteiltUnser Modell wurde an CGI-Hunden trainiert, aber wir konnten es nutzen, um 3D-Skelettmodelle aus Fotos von echten Tieren zu erstellen. Das könnte Naturschützern helfen, verletzte Wildtiere zu erkennen, oder Künstlern dabei helfen, realistischere Tiere im Metaverse zu erschaffen.
Bisherige Methoden, um der KI 3D-Strukturen beizubringen, basieren auf realen Fotos und Daten über die tatsächliche 3D-Position der Objekte, die oft durch Motion-Capture-Technologie gewonnen werden.
Bei der Anwendung dieser Techniken auf Hunde oder andere Tiere gibt es jedoch oft zu viele Bewegungen zu verfolgen, und es ist schwierig, Hunde dazu zu bringen, sich lange genug zu verhalten.
Um ihren Hundedatensatz zu erstellen, änderten die Forscher den Code von GTA V, um die menschlichen Charaktere durch Hunde-Avatare zu ersetzen, was als "Modding" bezeichnet wird.
Die Forscher produzierten 118 Videos, die diese virtuellen Hunde bei verschiedenen Aktionen - Sitzen, Gehen, Bellen und Laufen - in unterschiedlichen Umgebungsbedingungen zeigten.
Das Ergebnis war DigiDogs", eine umfangreiche Datenbank mit 27 900 Einzelbildern von Hundebewegungen, die auf eine Art und Weise erfasst wurden, wie es bei der realen Datenerfassung nicht möglich war.
Mit dem Datensatz in der Hand wurde in den nächsten Schritten das KI-Modell DINOv2 von Meta aufgrund seiner starken Generalisierungsfähigkeiten verwendet und mit DigiDogs fein abgestimmt, um 3D-Posen aus RGB-Bildern in Einzelansicht genau vorherzusagen.
Die Forscher wiesen nach, dass die Verwendung des DigiDogs-Datensatzes für das Training zu präziseren und lebensechteren 3D-Hundeposen führte als die, die mit realen Datensätzen trainiert wurden, dank der Vielfalt der erfassten Hundeerscheinungen und -aktionen.
Die verbesserte Leistung des Modells wurde durch gründliche qualitative und quantitative Bewertungen bestätigt.
Obwohl diese Studie einen großen Schritt nach vorn in der 3D-Tiermodellierung darstellt, räumt das Team ein, dass noch mehr Arbeit zu leisten ist, insbesondere bei der Verbesserung der Vorhersage des Tiefenaspekts der Bilder (der z-Koordinate).
Shooter beschrieb die möglichen Auswirkungen ihrer Arbeit mit den Worten: "3D-Posen enthalten so viel mehr Informationen als 2D-Fotos. Von der Ökologie bis zur Animation - es gibt so viele Anwendungsmöglichkeiten für diese tolle Lösung.
Die Papier wurde auf der IEEE/CVF Winter Conference on Applications of Computer Vision mit dem Preis für das beste Papier ausgezeichnet.
Sie öffnet die Tür zu einer besseren Modellleistung in Bereichen wie dem Schutz von Wildtieren und dem Rendering von 3D-Objekten für VR.