Des chercheurs entraînent un modèle à créer des images sans "voir" les œuvres protégées par le droit d'auteur

21 mai 2024

  • Des chercheurs de l'Université du Texas ont entraîné un modèle d'image sur des données corrompues.
  • Même si les images sont déformées et morcelées, il fonctionne admirablement bien.
  • Cela montre comment les modèles de génération d'images peuvent apprendre sans données sur les droits d'auteur
Génération d'images

Des chercheurs de l'université du Texas à Austin ont mis au point un cadre innovant pour l'entraînement de modèles d'intelligence artificielle sur des images fortement corrompues. 

Connue sous le nom de diffusion ambiante, cette méthode permet aux modèles d'IA de "s'inspirer" des images. sans en les copiant directement.

Les modèles conventionnels de conversion de texte en image utilisés par DALL-EMidjourney et Stable Diffusion risquent d'enfreindre le droit d'auteur parce qu'ils sont formés sur des ensembles de données comprenant des images protégées par le droit d'auteur, ce qui les amène parfois à reproduire ces images par inadvertance. 

La diffusion ambiante renverse la situation en formant des modèles avec des données délibérément corrompues.

Dans le cadre de la étudeL'équipe de recherche, composée d'Alex Dimakis et de Giannis Daras du département de génie électrique et informatique de l'UT Austin et de Constantinos Daskalakis du département de génie électrique et informatique de l MITa entraîné un modèle Stable Diffusion XL sur un ensemble de données de 3 000 images de célébrités. 

Dans un premier temps, on a observé que les modèles formés sur des données propres copiaient de manière flagrante les exemples d'apprentissage. 

Toutefois, lorsque les données d'apprentissage ont été corrompues - en masquant de manière aléatoire jusqu'à 90% des pixels - le modèle a continué à produire des images uniques de haute qualité.

Cela signifie que l'IA n'est jamais exposée à des versions reconnaissables des images originales, ce qui l'empêche de les copier.

"Notre cadre permet de contrôler le compromis entre la mémorisation et la performance". a expliqué Giannis Darasun étudiant diplômé en informatique qui a dirigé les travaux. 

"Au fur et à mesure que le niveau de corruption rencontré au cours de la formation augmente, la mémorisation de l'ensemble de formation diminue.

Applications scientifiques et médicales

Les utilisations de la diffusion ambiante vont au-delà de la résolution des problèmes de droits d'auteur. 

Selon le professeur Adam Klivans, qui a collaboré au projet, "le cadre pourrait également s'avérer utile pour des applications scientifiques et médicales. Cela serait vrai pour pratiquement toutes les recherches pour lesquelles il est coûteux ou impossible de disposer d'un ensemble complet de données non corrompues, de l'imagerie des trous noirs à certains types d'IRM".

Ceci est particulièrement utile dans les domaines où l'accès à des données non corrompues est limité, tels que l'astronomie et la physique des particules

Dans ces domaines et dans d'autres, les données peuvent être extrêmement bruyantes, de mauvaise qualité ou éparses, ce qui signifie que les données utiles sont largement surpassées en nombre par les données inutiles. Il serait utile d'apprendre aux modèles à utiliser plus efficacement des données sous-optimales.

Si l'approche de la diffusion ambiante était encore affinée, les entreprises d'IA pourraient créer des modèles texte-image fonctionnels tout en respectant les droits des créateurs de contenu original et en évitant les problèmes juridiques.

Même si cela ne résoudrait pas les problèmes liés au fait que les outils d'imagerie artificielle réduisent le nombre de travaux pour les artistes réels, cela protégerait au moins leurs œuvres d'une reproduction accidentelle dans les produits.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation