Des chercheurs de l'université du Texas à Austin ont mis au point un cadre innovant pour l'entraînement de modèles d'intelligence artificielle sur des images fortement corrompues.
Connue sous le nom de diffusion ambiante, cette méthode permet aux modèles d'IA de "s'inspirer" des images. sans en les copiant directement.
Les modèles conventionnels de conversion de texte en image utilisés par DALL-EMidjourney et Stable Diffusion risquent d'enfreindre le droit d'auteur parce qu'ils sont formés sur des ensembles de données comprenant des images protégées par le droit d'auteur, ce qui les amène parfois à reproduire ces images par inadvertance.
La diffusion ambiante renverse la situation en formant des modèles avec des données délibérément corrompues.
Dans le cadre de la étudeL'équipe de recherche, composée d'Alex Dimakis et de Giannis Daras du département de génie électrique et informatique de l'UT Austin et de Constantinos Daskalakis du département de génie électrique et informatique de l MITa entraîné un modèle Stable Diffusion XL sur un ensemble de données de 3 000 images de célébrités.
Dans un premier temps, on a observé que les modèles formés sur des données propres copiaient de manière flagrante les exemples d'apprentissage.
Toutefois, lorsque les données d'apprentissage ont été corrompues - en masquant de manière aléatoire jusqu'à 90% des pixels - le modèle a continué à produire des images uniques de haute qualité.
Cela signifie que l'IA n'est jamais exposée à des versions reconnaissables des images originales, ce qui l'empêche de les copier.
"Notre cadre permet de contrôler le compromis entre la mémorisation et la performance". a expliqué Giannis Darasun étudiant diplômé en informatique qui a dirigé les travaux.
"Au fur et à mesure que le niveau de corruption rencontré au cours de la formation augmente, la mémorisation de l'ensemble de formation diminue.
Applications scientifiques et médicales
Les utilisations de la diffusion ambiante vont au-delà de la résolution des problèmes de droits d'auteur.
Selon le professeur Adam Klivans, qui a collaboré au projet, "le cadre pourrait également s'avérer utile pour des applications scientifiques et médicales. Cela serait vrai pour pratiquement toutes les recherches pour lesquelles il est coûteux ou impossible de disposer d'un ensemble complet de données non corrompues, de l'imagerie des trous noirs à certains types d'IRM".
Ceci est particulièrement utile dans les domaines où l'accès à des données non corrompues est limité, tels que l'astronomie et la physique des particules.
Dans ces domaines et dans d'autres, les données peuvent être extrêmement bruyantes, de mauvaise qualité ou éparses, ce qui signifie que les données utiles sont largement surpassées en nombre par les données inutiles. Il serait utile d'apprendre aux modèles à utiliser plus efficacement des données sous-optimales.
Si l'approche de la diffusion ambiante était encore affinée, les entreprises d'IA pourraient créer des modèles texte-image fonctionnels tout en respectant les droits des créateurs de contenu original et en évitant les problèmes juridiques.
Même si cela ne résoudrait pas les problèmes liés au fait que les outils d'imagerie artificielle réduisent le nombre de travaux pour les artistes réels, cela protégerait au moins leurs œuvres d'une reproduction accidentelle dans les produits.