Des auteurs poursuivent Anthropic pour avoir utilisé des livres piratés pour former Claude

21 août 2024

  • Trois auteurs ont intenté une action collective en matière de droits d'auteur contre Anthropic
  • Les auteurs affirment qu'Anthropic a utilisé leurs livres protégés par le droit d'auteur et d'autres pour former ses modèles Claude.
  • Les livres faisaient partie d'un ensemble de données accessibles au public qui contenait auparavant des livres piratés

Un groupe d'auteurs a intenté une action collective contre Anthropic devant un tribunal californien ce lundi. Les auteurs affirment qu'Anthropic a bâti son activité en "volant des centaines de milliers de livres protégés par le droit d'auteur".

Les trois auteurs, Andrea Bartz, Charles Graeber et Kirk Wallace Johnson, affirment que leurs livres faisaient partie de l'ensemble de données qu'Anthropic a utilisé pour former sa famille d'outils de recherche. Claude modèles. Dans leur plainte, ils affirment qu'Anthropic est coupable d'avoir "téléchargé et copié des centaines de milliers de livres protégés par le droit d'auteur et provenant de sites web pirates et illégaux".

Les auteurs remettent en question la prétention d'Anthropic à être une société d'intérêt public en déclarant : "Il n'est pas exagéré de dire que le modèle d'Anthropic cherche à tirer profit de l'exploitation de l'expression humaine et de l'ingéniosité qui se cachent derrière chacune de ces œuvres".

La pile

Les livres en question font partie d'un ensemble de données controversé appelé Books3, qui faisait auparavant partie d'un ensemble de données plus vaste appelé The Pile. Il est généralement admis, mais non admis, qu'à peu près tous les grands LLM ont entraîné leurs modèles sur le Pile.

The Pile se compose d'environ 825 Go d'articles universitaires, de livres, de sites web, de documents techniques, etc. L'un des architectes de The Pile est un développeur indépendant nommé Shawn Presser. Presser a créé le jeu de données Books3 en 2020 et l'a ajouté à The Pile.

Books3 contient 196 640 livres au format texte, écrits par des auteurs célèbres tels que Stephen King, ainsi que par les auteurs qui ont intenté ce procès. On pense que Presser a utilisé Bibliotik, un célèbre tracker de torrents utilisé par une communauté de pirates du livre sur invitation uniquement, comme source pour Books3.

Lorsque The Pile a été hébergé et mis à la disposition du public en ligne par l'organisation à but non lucratif EleutherAI, celle-ci a indiqué les raisons pour lesquelles elle avait inclus les livres piratés. EleutherAI a déclaré : "Nous avons inclus Bibliotik parce que les livres sont inestimables pour la recherche sur la modélisation du contexte à long terme et pour une narration cohérente".

En août 2023, Books3 a été retiré de la copie "la plus officielle" de The Pile, mais à ce moment-là, il avait été utilisé par presque tous les grands noms du développement de modèles d'IA.

En juillet 2024, Anthropic a reconnu publiquement avoir utilisé The Pile pour entraîner ses modèles Claude. Bien qu'Anthropic n'ait pas encore répondu à l'action en justice, il est probable qu'elle revienne à la même défense d'"utilisation équitable" que celle qu'elle a utilisée dans le cadre de l'affaire Claude. OpenAI et autres Les pays qui font face à des poursuites similaires utilisent.

Les vrais dégâts

Outre la question des droits d'auteur, l'action en justice révèle la crainte réelle des auteurs de voir l'IA s'emparer de leur source de revenus.

La plainte allègue qu'"Anthropic, en s'appropriant les œuvres des auteurs sans compensation, a privé les auteurs de revenus tirés de la vente de livres et de licences". Cela risque d'être difficile à prouver. Claude décrit le livre "The Feather Thief" de Kirk Wallace Johnson, mais refuse d'en reproduire ne serait-ce qu'une page.

Je soupçonne Claude de mentir lorsqu'il répond "Je m'excuse, mais je n'ai pas accès au texte réel du "Voleur de plumes" ni à sa première page", car il décrit ensuite ce qui se passe à la page 1. Si vous voulez lire le livre, vous devrez l'acheter ou vous rendre dans une bibliothèque.

Malgré cela, les auteurs affirment que "Anthropic's Claude et d'autres LLM similaires menacent sérieusement les moyens de subsistance" des auteurs. Ils affirment que le travail d'écriture "commence à se tarir en raison des systèmes d'IA générative formés sur les œuvres de ces écrivains, sans compensation, pour commencer".

Pour preuve, le procès raconte comment un homme nommé Tim Boucher a "écrit" 97 livres en utilisant Claude et ChatGPT en moins d'un an, et les a vendus à des prix allant de $1.99 à $5.99.

Le procès demande un procès avec jury et des dommages et intérêts non spécifiés. Il sera intéressant de voir si les jurés accordent plus d'importance au droit d'auteur qu'à l'utilité des modèles d'IA comme Claude.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation