Dans le cadre d'une collaboration entre l'Australian National University, l'Université d'Oxford et la Beijing Academy of AI, des chercheurs ont dévoilé un système d'IA baptisé "3D-GPT".
Cette chaîne sophistiquée d'agents d'intelligence artificielle permet de générer des environnements en 3D à partir de simples invites textuelles.
Le document, disponible sur arXivLe logiciel de création d'actifs en 3D est une approche rationalisée et conviviale qui contraste avec les flux de travail alambiqués liés à la modélisation 3D traditionnelle.
En décrivant simplement un environnement comme un "pic enneigé avec un soleil radieux en arrière-plan", le système d'IA interprétera et étoffera la description de l'environnement et l'utilisera pour générer un code qui pourra être transmis à un logiciel d'infographie 3D tel que Blender.
3D-GPT décompose les tâches complexes de modélisation 3D en segments gérables, en déléguant chaque segment à des agents d'intelligence artificielle spécialisés.
Les rôles de l'agent sont les suivants :
- Agent de répartition des tâches: Interprète les instructions textuelles fournies par l'utilisateur.
- Agent de conceptualisation: Enrichit la description initiale en complétant les détails manquants.
- Agent de modélisation: Définit les paramètres nécessaires et génère du code pour manipuler des logiciels 3D tels que Blender.
Grâce à cette structure basée sur des agents, 3D-GPT peut interpréter des invites textuelles, compléter des descriptions par un contexte supplémentaire et créer des actifs 3D qui correspondent étroitement à l'imagination de l'utilisateur.
Transformer le texte en univers 3D
L'article décrit comment 3D-GPT peut prendre une simple invite textuelle telle que "un matin brumeux de printemps, où des fleurs baignées de rosée parsèment une prairie luxuriante entourée d'arbres en herbe" et lui donner vie, en créant une riche scène en 3D avec des graphismes réalistes.
Bien que la technologie n'ait pas encore atteint le stade du photoréalisme, les résultats sont prometteurs.
Les chercheurs sont optimistes quant à l'avenir : "Nos études empiriques confirment que la 3D-GPT non seulement interprète et exécute des instructions, produisant des résultats fiables, mais qu'elle collabore aussi efficacement avec les concepteurs humains".
Ils estiment que leur système "met en évidence le potentiel des LLM dans la modélisation 3D, offrant un cadre de base pour les progrès futurs en matière de génération de scènes et d'animation".
À mesure que les technologies telles que le métavers gagnent du terrain, des outils tels que le 3D-GPT pourraient devenir indispensables.
Les applications potentielles couvrent de nombreux secteurs, notamment les jeux, la réalité virtuelle, le cinéma et les expériences multimédias, rendant la création de contenu 3D plus efficace et plus accessible.
3D-GPT pourrait sonner l'alarme pour les concepteurs de jeux vidéo et les modélisateurs 3D, qui sont déjà attaqués par des outils similaires intégrés dans des plateformes de conception populaires telles que Unity.