16 000 noms d'artistes ont fait l'objet d'une fuite controversée en tant que "styles" de Midjourney

5 janvier 2024

AI à mi-parcours

Plus de 16 000 noms d'artistes ont été associés à l'entraînement non consensuel des modèles de génération d'images de Midjourney.

La base de données des artistes de Midjourney est jointe à un procès amendé intenté contre Stability AI, DeviantArt et Midjourney., classé sous Exhibit J, et dans une feuille de calcul Google publique qui a récemment fait l'objet d'une fuite et dont une partie peut être consultée dans le site web de la Commission européenne. Internet Archive ici

L'artiste Jon Lam a partagé sur X des captures d'écran d'un chat Discord de Midjourney où les développeurs discutent de l'utilisation de noms d'artistes et de styles provenant de Wikipédia et d'autres sources.

La feuille de calcul proviendrait à l'origine de l'équipe de développement de Midjourney. s'inscrit dans la lignée des chats Discord divulgués par les développeurs de Midjourney, qui font allusion au fait que les œuvres de l'artiste sont associées à des "styles".

En codant le travail des artistes sous forme de "styles", Midjourney peut recréer efficacement des œuvres dans leur style. 

Lam écrit : "Les développeurs de Midjourney ont été surpris en train de discuter de blanchiment et de créer une base de données d'artistes (qui ont été déshumanisés pour devenir des styles)".

Lam a également partagé des vidéos de listes d'artistes, y compris celles utilisées pour les styles Midjourney et une autre liste d'"artistes proposés". De nombreux utilisateurs de X ont déclaré que leur nom figurait sur ces listes. 

Une capture d'écran semble montrer une déclaration du PDG de Midjourney, David Holz, célébrant l'ajout de 16 000 artistes au programme de formation. 

Une autre montre un développeur de Midjourney discutant du fait qu'il faut "blanchir" par le biais d'un "Codex", bien que, sans contexte, il soit difficile de dire s'il s'agit du travail des artistes.

Dans cette même conversation, d'autres personnes (qui ne sont pas des employés de Midjourney) évoquent la façon dont le traitement des œuvres d'art par un modèle d'IA les désincarne essentiellement du droit d'auteur.

L'un d'entre eux affirme qu'il suffit d'utiliser ces ensembles de données récupérées et d'oublier commodément ce que l'on a utilisé pour former le modèle. Les problèmes juridiques sont résolus pour toujours".

L'évolution des affaires juridiques

Dans les actions en justice intentées contre Midjourney, Stability AI, mais aussi OpenAI, Meta et Google (mais pour des œuvres textuelles et non des images), les artistes, les écrivains et d'autres personnes ont eu du mal à prouver que leurs œuvres se trouvaient réellement "à l'intérieur" du modèle, mot pour mot.

Ce serait l'arme fatale dont ils ont besoin pour prouver la violation des droits d'auteur.  

Le droit d'auteur, en général, reste mal défini à l'ère de l'IA. Les modèles d'IA sont formés à partir de données qui doivent provenir de quelque part, et quelle meilleure source pour trouver ces données que l'internet ?

Les développeurs "récupèrent" ce que l'on appelle des données "ouvertes", "open-source" ou "publiques" sur l'internet, mais là encore, ces concepts sont mal définis. On peut dire que lorsque les développeurs d'IA ont senti l'imminence d'une ruée vers l'or, ils se sont emparés d'un maximum de données "ouvertes" sur l'internet et les ont utilisées pour entraîner leurs modèles.

Les procédures juridiques sont lentes ; en comparaison, l'IA va à la vitesse de la lumière. Il était très facile pour les développeurs de contourner la loi sur le droit d'auteur et de former des modèles bien avant que les détenteurs de droits d'auteur et la loi qui régit la propriété intellectuelle ne puissent réagir.

Le processus de réaction est maintenant en cours, mais le processus de formation à l'IA et le processus technique impliqué dans la génération des résultats de l'IA (par exemple, du texte ou des images) à partir des données de l'utilisateur remettent en question la nature du droit de la propriété intellectuelle.

Plus précisément, il est a) difficile de prouver que les modèles d'IA sont définitivement formés sur des documents protégés par le droit d'auteur et b) difficile de prouver que leurs résultats reproduisent suffisamment les documents protégés par le droit d'auteur.

Il y a aussi la question de la responsabilité. Les entreprises d'IA comme OpenAI et Midjourney ont utilisé, au moins en partie, des données récoltées par d'autres plutôt que de les récolter elles-mêmes. Ce ne sont donc pas les collecteurs de données d'origine qui sont responsables de l'infraction ?

Dans le contexte de la situation récente à Midjourney, les modèles de Midjourney, comme d'autres, reproduiront toujours un mélange d'œuvres contenues dans ses données. Les artistes ne peuvent pas facilement prouver quelles pièces ils ont utilisées. 

Par exemple, lors d'une récente affaire de droits d'auteur contre Midjourney, Stability AI et DeviantArt a été rejeté (il est depuis a été soumis à nouveau avec de nouveaux plaignants), le juge fédéral Orrick a identifié plusieurs défauts dans la manière dont les demandes étaient formulées, en particulier dans leur compréhension du fonctionnement des générateurs d'images d'IA. 

La plainte initiale alléguait que Stability AI, dans le cadre de l'entraînement de son modèle Stable Diffusion, avait stocké des copies compressées des images. 

Stability AI a réfuté cette affirmation en précisant que le processus de formation implique l'extraction d'attributs tels que les lignes, les nuances et les couleurs et le développement de paramètres basés sur ces attributs plutôt que le stockage de copies des images.

La décision d'Orrick a mis en évidence la nécessité pour les plaignants de modifier leurs demandes afin de représenter plus précisément le fonctionnement de ces modèles d'IA. 

Il est notamment nécessaire d'expliquer plus clairement si la plainte contre Midjourney est due à son utilisation de Stable Diffusion, à son utilisation indépendante d'images d'entraînement, ou aux deux (car Midjourney est également accusée d'utiliser les modèles de Stability AI, qui utiliseraient des œuvres protégées par le droit d'auteur). 

Un autre défi pour les plaignants est de démontrer que les résultats de Midjourney sont substantiellement similaires à leurs œuvres d'art originales. Orrick a noté que les plaignants eux-mêmes ont admis que les images produites par Stable Diffusion ont peu de chances de correspondre étroitement à une image spécifique dans les données d'apprentissage. 

Dès à présent, l'affaire est en coursLe tribunal a rejeté les dernières tentatives des sociétés d'IA de rejeter les plaintes des artistes. 

L'utilisation de l'ensemble de données LAION a été ajoutée au mélange

Les actions en justice intentées contre Midjourney et consorts ont également mis l'accent sur leur utilisation potentielle de l'ensemble de données LAION-5B - une compilation de 5,85 milliards d'images provenant de l'internet, y compris des contenus protégés par le droit d'auteur. 

Stanford a récemment critiqué LAION pour avoir contenu des images sexuelles illicites, y compris des abus sexuels sur des enfants et divers contenus sexistes, racistes et autres contenus déplorables - autant d'éléments qui "vivent" désormais dans les modèles d'IA dont la société commence à dépendre pour des usages créatifs et professionnels. 

Les implications à long terme de cette situation font l'objet d'un vif débat, mais le fait que ces IA soient peut-être formées d'abord sur des travaux volés et ensuite sur des contenus illégaux ne jette pas une lumière positive sur le développement de l'IA en général. 

Les commentaires des développeurs de Midjourney ont été largement critiqués sur les médias sociaux et dans le monde entier. le forum Y Combinator.

Il est très probable que 2024 donnera lieu à de nouveaux débats juridiques enflammés et que le chapitre "Far West" du développement de l'IA touche à sa fin.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation