Les procès contre l'IA se multiplient : la comédienne et auteure américaine Sarah Silverman et les auteurs Christopher Golden et Richard Kadrey intentent une action en justice contre OpenAI et Meta.
Le trio allègue une violation des droits d'auteur, affirmant que leur travail a été illégalement utilisé pour former ChatGPT et LLaMA, le modèle de langue large (LLM) open-source de Meta.
ChatGPT s'appuie sur l'analyse d'une quantité colossale de données provenant d'Internet - ce sont ces données qui lui apprennent à traiter le langage naturel. De nombreuses questions se posent quant à l'origine de ces données d'entraînement et aux méthodes utilisées pour les récupérer, et les soupçons se renforcent lorsque les créateurs découvrent que leur travail est peut-être contenu dans ces données d'entraînement.
Dans ce dernier procès, OpenAI et Meta sont accusés d'avoir utilisé les livres des plaignants, protégés par des droits d'auteur, comme données d'entraînement sans leur consentement.
Les poursuites suggèrent que les documents proviennent de sites web de "bibliothèques fantômes". Les bibliothèques fantômes contiennent de grandes quantités d'informations copiées illégalement, notamment des sites tels que Bibliotik, Library Genesis et Z-Library. Les bibliothèques fantômes sont semblables aux torrents : il est difficile de les empêcher et de les contrôler.
OpenAI est accusée d'avoir résumé avec précision trois livres lorsqu'on le lui demandait : The Bedwetter de Silverman, Ararat de Golden et Sandman Slim de Kadrey. Bien que l'IA ait pu apprendre à connaître ces livres à partir des résumés de Wikipédia et d'autres sources similaires, cela n'expliquerait pas le niveau de détail contenu dans les résumés.
Le procès contre Meta cite plusieurs œuvres de Kadrey et Golden, ainsi que "The Bedwetter", qui fait référence à un document de Meta indiquant l'utilisation de matériel provenant de bibliothèques fantômes, ce que le procès qualifie d'"illégalité flagrante".
Document de Meta Nous incluons deux corpus de livres dans notre ensemble de données de formation : le projet Gutenberg, qui contient des livres tombés dans le domaine public, et la section Books3 de ThePile (Gao et al., 2020), un ensemble de données accessible au public pour la formation de grands modèles de langage".
Joseph Saveri et Matthew Butterick, avocats représentant le trio, ont fait état de préoccupations croissantes concernant la capacité troublante de ChatGPT à imiter un texte protégé par des droits d'auteur.
Recherche a montré que le GPT-4 a presque certainement appris à partir d'œuvres protégées par le droit d'auteur.
Toutefois, cela peut s'expliquer par le fait qu'ils sont populaires et largement diffusés ou qu'ils figurent dans les cours des écoles et des universités.
En tout état de cause, cela ne dispense pas les entreprises d'IA d'utiliser ces textes dans leurs données d'entraînement.
Les procès liés à l'IA se multiplient
L'IA est devenue le centre d'une tempête de procès, dont beaucoup sont considérés comme les premiers du genre.
Les mêmes avocats représentent également les auteurs américains Mona Awad et Paul Tremblay dans une affaire d'abus de confiance. une action collective distincte mais presque identique contre OpenAI.
Et encore une fois, cette même équipe de juristes, Saveri et Butterick, sont représentant 3 artistes - Sarah Andersen, Kelly McKernan et Karla Ortiz - dans un procès contre les générateurs d'images Stability AI et Midjourney.
Ce même cabinet d'avocats a représenté un Procédure contre Microsft et GitHubLes plaignants affirment que leur outil d'intelligence artificielle Copilot AI a profité du travail de programmeurs de logiciels libres. Il s'agit d'une affaire très similaire : les plaignants affirment que l'outil d'intelligence artificielle est formé à partir d'informations contenant des données "open-source" extraites de manière illicite.
En l'occurrence, les défendeurs affirment que "la section 1202(b) de la loi américaine sur le droit d'auteur du millénaire numérique concerne des "copies ... d'une œuvre" identiques - et non des bribes et des adaptations éparses". Les entreprises d'IA peuvent opposer le même argument aux auteurs, en suggérant que les résumés de leur travail sont insuffisants pour étayer leur argument selon lequel les livres apparaissent dans leur intégralité dans les données d'apprentissage.
Quoi qu'il en soit, les allégations s'accumulent, ce qui indique une tendance à l'intensification des pressions juridiques sur les entreprises du secteur de l'IA.
Les réglementations en matière d'IA, telles que la Loi européenne sur l'IA s'apprêtent à exiger des entreprises qu'elles divulguent des informations sur les données protégées par le droit d'auteur dans leurs données de formation. Reste à savoir si cela aura l'effet escompté.