Um grupo de autores intentou uma ação colectiva contra a Anthropic num tribunal da Califórnia, na segunda-feira. Os autores alegam que a Anthropic construiu o seu negócio "roubando centenas de milhares de livros protegidos por direitos de autor".
Os três autores, Andrea Bartz, Charles Graeber e Kirk Wallace Johnson, afirmam que os seus livros faziam parte do conjunto de dados que o Anthropic utilizou para treinar a sua família de Claude modelos. No seu processo, alegam que a Anthropic foi culpada de "descarregar e copiar centenas de milhares de livros protegidos por direitos de autor retirados de sítios Web piratas e ilegais".
Os autores questionaram a pretensão da Anthropic de ser uma empresa de utilidade pública, afirmando que "não é exagero dizer que o modelo da Anthropic procura lucrar com a exploração da expressão e do engenho humanos por detrás de cada uma dessas obras".
A pilha
Os livros em questão fazem parte de um conjunto de dados controverso chamado Books3, que anteriormente fazia parte de um conjunto de dados maior chamado The Pile. É geralmente aceite, mas não admitido, que quase todos os grandes LLMs treinaram os seus modelos no The Pile.
A Pilha é constituída por cerca de 825 GB de artigos académicos, livros, sítios Web, documentos técnicos e muito mais. Um dos arquitectos da Pile é um programador independente chamado Shawn Presser. Presser criou o conjunto de dados Books3 em 2020 e adicionou-o ao The Pile.
O Books3 contém 196.640 livros em formato de texto simples de autores famosos como Stephen King, bem como dos autores que interpuseram esta ação judicial. Pensa-se que Presser utilizou o Bibliotik, um famoso tracker de torrents utilizado por uma comunidade de piratas de livros só para convidados, como fonte para o Books3.
Suponha que queria treinar um modelo GPT de classe mundial, tal como OpenAI. Como? Não tens dados.
Agora sim. Agora toda a gente sabe.
Apresentação de "books3", também conhecido como "all of bibliotik"
- 196.640 livros
- em .txt simples
- fiável, transferência direta, durante anos: https://t.co/KKSrhEAnrDfio 👇 pic.twitter.com/m6bdpHfYJx
- Shawn Presser (@theshawwn) 25 de outubro de 2020
Quando o The Pile foi alojado e disponibilizado publicamente em linha pela organização sem fins lucrativos EleutherAI, referiu as razões que a levaram a incluir os livros pirateados. A EleutherAI disse: "Incluímos o Bibliotik porque os livros são inestimáveis para a investigação de modelação de contexto a longo prazo e para contar histórias coerentes."
Em agosto de 2023, o Books3 foi retirado da cópia "mais oficial" do The Pile, mas nessa altura já tinha sido utilizado por praticamente todos os grandes nomes do desenvolvimento de modelos de IA.
Em julho de 2024, a Anthropic reconheceu publicamente que utilizou o The Pile para treinar os seus modelos Claude. Embora a Anthropic ainda não tenha respondido à ação judicial, é provável que volte a utilizar a mesma defesa de "utilização justa" que OpenAI e outros que enfrentam processos judiciais semelhantes estão a utilizar.
Os verdadeiros danos
Para além da questão dos direitos de autor, a ação judicial revela o receio genuíno que os autores têm de que a IA se apodere da sua fonte de rendimento.
O processo alega que "a Anthropic, ao aceitar os trabalhos dos autores sem compensação, privou os autores das vendas de livros e das receitas de licenciamento". Isso pode ser difícil de provar. Claude vai descrever o livro "The Feather Thief" de Kirk Wallace Johnson, mas recusa-se a reproduzir uma única página.
Suspeito que o Claude está a mentir quando responde com "Peço desculpa, mas não tenho acesso ao texto real de "O Ladrão de Penas" ou à sua primeira página", porque continua a descrever o que acontece na página 1. Se quiser ler o livro, terá de o comprar ou ir a uma biblioteca.
Mesmo assim, os autores afirmam que "o Anthropic's Claude e outros LLM como ele ameaçam seriamente a subsistência" dos autores. Dizem que o trabalho de escrita está "a começar a secar como resultado de sistemas de IA generativos treinados nos trabalhos desses escritores, sem compensação, para começar".
Como prova disso, o processo relata como um homem chamado Tim Boucher "escreveu" 97 livros usando Claude e ChatGPT em menos de um ano, e vendeu-os a preços de $1.99 a $5.99.
A ação judicial está a pedir um julgamento com júri e uma indemnização não especificada. Será interessante ver se os jurados valorizam mais a lei dos direitos de autor do que a utilidade de modelos de IA como o Claude.