Lunedì un gruppo di autori ha intentato una causa collettiva contro Anthropic in un tribunale della California. Gli autori sostengono che Anthropic ha costruito il suo business "rubando centinaia di migliaia di libri protetti da copyright".
I tre autori, Andrea Bartz, Charles Graeber e Kirk Wallace Johnson, sostengono che i loro libri facevano parte del set di dati che Anthropic ha utilizzato per addestrare la sua famiglia di Claude modelli. Nella loro causa, sostengono che Anthropic era colpevole di aver "scaricato e copiato centinaia di migliaia di libri protetti da copyright presi da siti web pirata e illegali".
Gli autori hanno messo in dubbio la pretesa di Anthropic di essere una società di pubblica utilità, affermando: "Non è esagerato dire che il modello di Anthropic cerca di trarre profitto dallo sminuzzamento dell'espressione umana e dell'ingegno che sta dietro a ciascuna di queste opere".
Il mucchio
I libri in questione fanno parte di un controverso dataset chiamato Books3, che in precedenza faceva parte di un dataset più ampio chiamato The Pile. È generalmente accettato, ma non ammesso, che quasi tutti i grandi LLM abbiano addestrato i loro modelli su The Pile.
The Pile consiste in circa 825 GB di documenti accademici, libri, siti web, documenti tecnici e altro ancora. Uno degli architetti di The Pile è uno sviluppatore indipendente di nome Shawn Presser. Presser ha creato il set di dati Books3 nel 2020 e lo ha aggiunto a The Pile.
Books3 contiene 196.640 libri in formato testo semplice di autori famosi come Stephen King e gli autori che hanno intentato questa causa. Si ritiene che Presser abbia utilizzato Bibliotik, un noto tracker torrent utilizzato da una comunità di pirati librari ad invito, come fonte per Books3.
Supponiamo di voler addestrare un modello GPT di livello mondiale, proprio come OpenAI. Come? Non avete dati.
Ora lo fate voi. Ora lo sanno tutti.
Presentazione di "books3", alias "all of bibliotik".
- 196.640 libri
- in un semplice .txt
- affidabile, download diretto, da anni: https://t.co/KKSrhEAnrDfilo 👇 pic.twitter.com/m6bdpHfYJx
- Shawn Presser (@theshawwn) 25 ottobre 2020
Quando The Pile è stato ospitato e reso pubblicamente disponibile online dall'organizzazione no-profit EleutherAI, ha indicato le ragioni per cui ha incluso i libri piratati. EleutherAI ha dichiarato: "Abbiamo incluso Bibliotik perché i libri sono preziosi per la ricerca di modelli di contesto a lungo termine e per la narrazione coerente".
Nell'agosto del 2023, Books3 fu rimosso dalla copia "più ufficiale" di The Pile, ma a quel punto era stato utilizzato da quasi tutti i grandi nomi dello sviluppo di modelli di IA.
Nel luglio 2024, Anthropic ha riconosciuto pubblicamente di aver utilizzato The Pile per addestrare i suoi modelli Claude. Anthropic non ha ancora risposto alla causa, ma è probabile che ricorra alla stessa difesa del "fair use" che ha usato per i suoi modelli. OpenAI e altri che stanno affrontando cause legali simili.
Il danno reale
Oltre alla questione dei diritti d'autore, la causa rivela il timore reale degli autori che l'intelligenza artificiale si impossessi della loro fonte di reddito.
La causa sostiene che "Anthropic, appropriandosi delle opere degli autori senza compenso, ha privato gli autori delle vendite dei libri e dei ricavi delle licenze". Potrebbe essere difficile da dimostrare. Claude descriverà il libro "The Feather Thief" (Il ladro di piume) di Kirk Wallace Johnson, ma si rifiuta di riprodurre anche una sola pagina.
Sospetto che Claude stia mentendo quando risponde con "Mi scuso, ma non ho accesso al testo effettivo de "Il ladro di piume" o alla sua prima pagina", perché continua a descrivere ciò che avviene a pagina 1. Se volete leggere il libro, dovete comprarlo o andare in biblioteca. Se volete leggere il libro, dovete comprarlo o andare in biblioteca.
Tuttavia, gli autori affermano che "Anthropic's Claude e altri LLM simili minacciano seriamente il sostentamento" degli autori. A loro dire, il lavoro di scrittura "sta iniziando a scarseggiare a causa dei sistemi di intelligenza artificiale generativa addestrati sulle opere di questi scrittori, senza alcun compenso, tanto per cominciare".
A riprova di ciò, la causa racconta di come un uomo di nome Tim Boucher abbia "scritto" 97 libri utilizzando Claude e ChatGPT in meno di un anno, e li abbia venduti a prezzi compresi tra $1,99 e $5,99.
La causa chiede un processo con giuria e danni non specificati. Sarà interessante vedere se i giurati daranno più importanza alla legge sul copyright che all'utilità di modelli di intelligenza artificiale come Claude.