Un grupo de autores presentó el lunes una demanda colectiva contra Anthropic ante un tribunal de California. Los autores afirman que Anthropic construyó su negocio "robando cientos de miles de libros protegidos por derechos de autor".
Los tres autores, Andrea Bartz, Charles Graeber y Kirk Wallace Johnson afirman que sus libros formaban parte del conjunto de datos que Anthropic utilizó para entrenar a su familia de Claude modelos. En su demanda, alegan que Anthropic era culpable de "descargar y copiar cientos de miles de libros protegidos por derechos de autor tomados de sitios web piratas e ilegales".
Los autores cuestionaron la pretensión de Anthropic de ser una empresa de utilidad pública diciendo: "No es exagerado afirmar que el modelo de Anthropic pretende lucrarse a costa de la extracción de la expresión y el ingenio humanos que hay detrás de cada una de esas obras".
La Pila
Los libros en cuestión forman parte de un controvertido conjunto de datos llamado Books3, que anteriormente formaba parte de un conjunto de datos mayor llamado The Pile. Está generalmente aceptado, pero no admitido, que casi todos los grandes LLM entrenaron sus modelos en The Pile.
The Pile consta de unos 825 GB de artículos académicos, libros, sitios web, documentos técnicos y mucho más. Uno de los arquitectos de The Pile es un desarrollador independiente llamado Shawn Presser. Presser creó el conjunto de datos Books3 en 2020 y lo añadió a The Pile.
Books3 contiene 196.640 libros en formato de texto sin formato de autores famosos como Stephen King, así como de los autores que interpusieron esta demanda. Se cree que Presser utilizó Bibliotik, un conocido rastreador de torrents utilizado por una comunidad de piratas de libros a la que sólo se puede acceder por invitación, como fuente de Books3.
Supongamos que desea entrenar un modelo GPT de clase mundial, como OpenAI. ¿Cómo? No tienes datos.
Ahora sí. Ahora todo el mundo lo hace.
Presentación de "books3", también conocido como "all of bibliotik".
- 196.640 libros
- en formato .txt
- fiable, descarga directa, desde hace años: https://t.co/KKSrhEAnrDhilo 👇 pic.twitter.com/m6bdpHfYJx
- Shawn Presser (@theshawwn) 25 de octubre de 2020
Cuando la organización sin ánimo de lucro EleutherAI alojó The Pile y lo puso a disposición del público en línea, señaló las razones por las que había incluido los libros pirateados. EleutherAI dijo: "Incluimos Bibliotik porque los libros tienen un valor incalculable para la investigación de modelos de contexto de largo alcance y la narración coherente".
En agosto de 2023, Books3 fue eliminado de la copia "más oficial" de The Pile, pero para entonces ya había sido utilizado por casi todos los grandes nombres del desarrollo de modelos de IA.
En julio de 2024, Anthropic reconoció públicamente que utilizaba The Pile para entrenar sus modelos Claude. Aunque Anthropic aún no ha respondido a la demanda, es probable que recurra a la misma defensa de "uso legítimo" que utilizó en su día. OpenAI y otros que se enfrentan a demandas similares están utilizando.
El daño real
Además de la cuestión de los derechos de autor, la demanda revela el auténtico temor de los autores a que la IA se apodere de su fuente de ingresos.
La demanda alega que "Anthropic, al apropiarse de las obras de los autores sin compensación, ha privado a los autores de las ventas de libros y de los ingresos por licencias". Eso puede ser difícil de probar. Claude describirá el libro "El ladrón de plumas", de Kirk Wallace Johnson, pero se niega a reproducir ni una sola página.
Sospecho que Claude miente cuando responde con "Pido disculpas, pero no tengo acceso al texto real de "El ladrón de plumas" ni a su primera página", porque pasa a describir lo que ocurre en la página 1. Si quieres leer el libro, tendrás que comprarlo o acudir a una biblioteca.
Aun así, los autores afirman que "el Claude de Anthropic y otros LLM similares amenazan seriamente el sustento" de los autores. Dicen que el trabajo de escritor "está empezando a agotarse como resultado de los sistemas de IA generativa entrenados en las obras de esos escritores, sin compensación, para empezar".
Como prueba de ello, la demanda relata cómo un hombre llamado Tim Boucher "escribió" 97 libros utilizando Claude y ChatGPT en menos de un año, y los vendió a precios de $1,99 a $5,99.
La demanda pide un juicio con jurado y daños y perjuicios no especificados. Será interesante ver si los jurados valoran más la ley de derechos de autor que la utilidad de modelos de IA como Claude.