Gli autori denunciano Anthropic per aver usato libri piratati per formare Claude

21 agosto 2024

  • Tre autori hanno intentato una class action sul diritto d'autore contro Anthropic
  • Gli autori sostengono che Anthropic ha utilizzato i loro libri protetti da copyright e altri per addestrare i suoi modelli Claude.
  • I libri facevano parte di un set di dati disponibili al pubblico che in precedenza conteneva libri pirata.

Lunedì un gruppo di autori ha intentato una causa collettiva contro Anthropic in un tribunale della California. Gli autori sostengono che Anthropic ha costruito il suo business "rubando centinaia di migliaia di libri protetti da copyright".

I tre autori, Andrea Bartz, Charles Graeber e Kirk Wallace Johnson, sostengono che i loro libri facevano parte del set di dati che Anthropic ha utilizzato per addestrare la sua famiglia di Claude modelli. Nella loro causa, sostengono che Anthropic era colpevole di aver "scaricato e copiato centinaia di migliaia di libri protetti da copyright presi da siti web pirata e illegali".

Gli autori hanno messo in dubbio la pretesa di Anthropic di essere una società di pubblica utilità, affermando: "Non è esagerato dire che il modello di Anthropic cerca di trarre profitto dallo sminuzzamento dell'espressione umana e dell'ingegno che sta dietro a ciascuna di queste opere".

Il mucchio

I libri in questione fanno parte di un controverso dataset chiamato Books3, che in precedenza faceva parte di un dataset più ampio chiamato The Pile. È generalmente accettato, ma non ammesso, che quasi tutti i grandi LLM abbiano addestrato i loro modelli su The Pile.

The Pile consiste in circa 825 GB di documenti accademici, libri, siti web, documenti tecnici e altro ancora. Uno degli architetti di The Pile è uno sviluppatore indipendente di nome Shawn Presser. Presser ha creato il set di dati Books3 nel 2020 e lo ha aggiunto a The Pile.

Books3 contiene 196.640 libri in formato testo semplice di autori famosi come Stephen King e gli autori che hanno intentato questa causa. Si ritiene che Presser abbia utilizzato Bibliotik, un noto tracker torrent utilizzato da una comunità di pirati librari ad invito, come fonte per Books3.

Quando The Pile è stato ospitato e reso pubblicamente disponibile online dall'organizzazione no-profit EleutherAI, ha indicato le ragioni per cui ha incluso i libri piratati. EleutherAI ha dichiarato: "Abbiamo incluso Bibliotik perché i libri sono preziosi per la ricerca di modelli di contesto a lungo termine e per la narrazione coerente".

Nell'agosto del 2023, Books3 fu rimosso dalla copia "più ufficiale" di The Pile, ma a quel punto era stato utilizzato da quasi tutti i grandi nomi dello sviluppo di modelli di IA.

Nel luglio 2024, Anthropic ha riconosciuto pubblicamente di aver utilizzato The Pile per addestrare i suoi modelli Claude. Anthropic non ha ancora risposto alla causa, ma è probabile che ricorra alla stessa difesa del "fair use" che ha usato per i suoi modelli. OpenAI e altri che stanno affrontando cause legali simili.

Il danno reale

Oltre alla questione dei diritti d'autore, la causa rivela il timore reale degli autori che l'intelligenza artificiale si impossessi della loro fonte di reddito.

La causa sostiene che "Anthropic, appropriandosi delle opere degli autori senza compenso, ha privato gli autori delle vendite dei libri e dei ricavi delle licenze". Potrebbe essere difficile da dimostrare. Claude descriverà il libro "The Feather Thief" (Il ladro di piume) di Kirk Wallace Johnson, ma si rifiuta di riprodurre anche una sola pagina.

Sospetto che Claude stia mentendo quando risponde con "Mi scuso, ma non ho accesso al testo effettivo de "Il ladro di piume" o alla sua prima pagina", perché continua a descrivere ciò che avviene a pagina 1. Se volete leggere il libro, dovete comprarlo o andare in biblioteca. Se volete leggere il libro, dovete comprarlo o andare in biblioteca.

Tuttavia, gli autori affermano che "Anthropic's Claude e altri LLM simili minacciano seriamente il sostentamento" degli autori. A loro dire, il lavoro di scrittura "sta iniziando a scarseggiare a causa dei sistemi di intelligenza artificiale generativa addestrati sulle opere di questi scrittori, senza alcun compenso, tanto per cominciare".

A riprova di ciò, la causa racconta di come un uomo di nome Tim Boucher abbia "scritto" 97 libri utilizzando Claude e ChatGPT in meno di un anno, e li abbia venduti a prezzi compresi tra $1,99 e $5,99.

La causa chiede un processo con giuria e danni non specificati. Sarà interessante vedere se i giurati daranno più importanza alla legge sul copyright che all'utilità di modelli di intelligenza artificiale come Claude.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni