Autores processam a Anthropic por usar livros pirateados para treinar Claude

21 de agosto de 2024

  • Três autores intentaram uma ação colectiva de direitos de autor contra a Anthropic
  • Os autores alegam que a Anthropic utilizou os seus livros protegidos por direitos de autor e outros para treinar os seus modelos Claude
  • Os livros faziam parte de um conjunto de dados disponível ao público que anteriormente continha livros pirateados

Um grupo de autores intentou uma ação colectiva contra a Anthropic num tribunal da Califórnia, na segunda-feira. Os autores alegam que a Anthropic construiu o seu negócio "roubando centenas de milhares de livros protegidos por direitos de autor".

Os três autores, Andrea Bartz, Charles Graeber e Kirk Wallace Johnson, afirmam que os seus livros faziam parte do conjunto de dados que o Anthropic utilizou para treinar a sua família de Claude modelos. No seu processo, alegam que a Anthropic foi culpada de "descarregar e copiar centenas de milhares de livros protegidos por direitos de autor retirados de sítios Web piratas e ilegais".

Os autores questionaram a pretensão da Anthropic de ser uma empresa de utilidade pública, afirmando que "não é exagero dizer que o modelo da Anthropic procura lucrar com a exploração da expressão e do engenho humanos por detrás de cada uma dessas obras".

A pilha

Os livros em questão fazem parte de um conjunto de dados controverso chamado Books3, que anteriormente fazia parte de um conjunto de dados maior chamado The Pile. É geralmente aceite, mas não admitido, que quase todos os grandes LLMs treinaram os seus modelos no The Pile.

A Pilha é constituída por cerca de 825 GB de artigos académicos, livros, sítios Web, documentos técnicos e muito mais. Um dos arquitectos da Pile é um programador independente chamado Shawn Presser. Presser criou o conjunto de dados Books3 em 2020 e adicionou-o ao The Pile.

O Books3 contém 196.640 livros em formato de texto simples de autores famosos como Stephen King, bem como dos autores que interpuseram esta ação judicial. Pensa-se que Presser utilizou o Bibliotik, um famoso tracker de torrents utilizado por uma comunidade de piratas de livros só para convidados, como fonte para o Books3.

Quando o The Pile foi alojado e disponibilizado publicamente em linha pela organização sem fins lucrativos EleutherAI, referiu as razões que a levaram a incluir os livros pirateados. A EleutherAI disse: "Incluímos o Bibliotik porque os livros são inestimáveis para a investigação de modelação de contexto a longo prazo e para contar histórias coerentes."

Em agosto de 2023, o Books3 foi retirado da cópia "mais oficial" do The Pile, mas nessa altura já tinha sido utilizado por praticamente todos os grandes nomes do desenvolvimento de modelos de IA.

Em julho de 2024, a Anthropic reconheceu publicamente que utilizou o The Pile para treinar os seus modelos Claude. Embora a Anthropic ainda não tenha respondido à ação judicial, é provável que volte a utilizar a mesma defesa de "utilização justa" que OpenAI e outros que enfrentam processos judiciais semelhantes estão a utilizar.

Os verdadeiros danos

Para além da questão dos direitos de autor, a ação judicial revela o receio genuíno que os autores têm de que a IA se apodere da sua fonte de rendimento.

O processo alega que "a Anthropic, ao aceitar os trabalhos dos autores sem compensação, privou os autores das vendas de livros e das receitas de licenciamento". Isso pode ser difícil de provar. Claude vai descrever o livro "The Feather Thief" de Kirk Wallace Johnson, mas recusa-se a reproduzir uma única página.

Suspeito que o Claude está a mentir quando responde com "Peço desculpa, mas não tenho acesso ao texto real de "O Ladrão de Penas" ou à sua primeira página", porque continua a descrever o que acontece na página 1. Se quiser ler o livro, terá de o comprar ou ir a uma biblioteca.

Mesmo assim, os autores afirmam que "o Anthropic's Claude e outros LLM como ele ameaçam seriamente a subsistência" dos autores. Dizem que o trabalho de escrita está "a começar a secar como resultado de sistemas de IA generativos treinados nos trabalhos desses escritores, sem compensação, para começar".

Como prova disso, o processo relata como um homem chamado Tim Boucher "escreveu" 97 livros usando Claude e ChatGPT em menos de um ano, e vendeu-os a preços de $1.99 a $5.99.

A ação judicial está a pedir um julgamento com júri e uma indemnização não especificada. Será interessante ver se os jurados valorizam mais a lei dos direitos de autor do que a utilidade de modelos de IA como o Claude.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições