Författare stämmer Anthropic för att ha använt piratkopierade böcker för att utbilda Claude

21 augusti 2024

  • Tre författare har lämnat in en grupptalan om upphovsrätt mot Anthropic
  • Författarna hävdar att Anthropic använde deras och andras upphovsrättsskyddade böcker för att träna sina Claude-modeller
  • Böckerna var en del av ett offentligt tillgängligt dataset som tidigare innehöll piratkopierade böcker

En grupp författare lämnade in en grupptalan mot Anthropic i en domstol i Kalifornien på måndagen. Författarna hävdar att Anthropic byggde sin verksamhet genom att "stjäla hundratusentals upphovsrättsskyddade böcker".

De tre författarna Andrea Bartz, Charles Graeber och Kirk Wallace Johnson hävdar att deras böcker var en del av det dataset som Anthropic använde för att träna sin familj av Claude modeller. I sin stämningsansökan hävdar de att Anthropic gjort sig skyldigt till "nedladdning och kopiering av hundratusentals upphovsrättsskyddade böcker från piratkopierade och olagliga webbplatser".

Författarna ifrågasatte Anthropics påstående om att vara ett allmännyttigt företag och sa: "Det är ingen överdrift att säga att Anthropics modell syftar till att tjäna pengar på att skala bort det mänskliga uttrycket och uppfinningsrikedomen bakom vart och ett av dessa verk."

Stapeln

Böckerna i fråga är en del av en kontroversiell dataset som heter Books3, som tidigare utgjorde en del av en större dataset som heter The Pile. Det är allmänt accepterat, men inte erkänt, att nästan varenda en av de stora LLM:erna tränade sina modeller på The Pile.

The Pile består av cirka 825 GB akademiska artiklar, böcker, webbplatser, tekniska dokument och mycket mer. En av arkitekterna bakom The Pile är en oberoende utvecklare vid namn Shawn Presser. Presser skapade Books3-datasetet 2020 och lade till det i The Pile.

Books3 innehåller 196 640 böcker i klartextformat av kända författare som Stephen King och de författare som har väckt den här stämningen. Man tror att Presser använde Bibliotik, en ökänd torrent-tracker som används av en grupp bokpirater som endast är inbjudna, som källa för Books3.

När The Pile hostades och gjordes allmänt tillgänglig online av den ideella organisationen EleutherAI, noterade den sina skäl för att inkludera de piratkopierade böckerna. EleutherAI sa: "Vi inkluderade Bibliotik eftersom böcker är ovärderliga för långsiktig forskning om kontextmodellering och sammanhängande berättande."

I augusti 2023 togs Books3 bort från den "mest officiella" kopian av The Pile, men vid det laget hade den använts av i stort sett alla de stora namnen inom AI-modellutveckling.

I juli 2024 erkände Anthropic offentligt att de använde The Pile för att träna sina Claude-modeller. Medan Anthropic ännu inte har svarat på stämningen kommer det sannolikt att återgå till samma försvar för "rättvis användning" som OpenAI och andra som står inför liknande stämningar använder.

Den verkliga skadan

Förutom upphovsrättsfrågan avslöjar stämningen den genuina rädsla som författare har för att AI ska ta över deras inkomstkälla.

I stämningsansökan hävdas att "Anthropic, genom att ta författarnas verk utan ersättning, har berövat författarna intäkter från bokförsäljning och licensiering". Det kan bli svårt att bevisa. Claude beskriver boken "The Feather Thief" av Kirk Wallace Johnson, men vägrar att återge ens en enda sida.

Jag misstänker att Claude ljuger när de svarar med "Jag ber om ursäkt, men jag har inte tillgång till den faktiska texten i "Fjädertjuven" eller dess första sida", eftersom de fortsätter med att beskriva vad som händer på sidan 1. Om du vill läsa boken måste du köpa den eller gå till ett bibliotek.

Ändå säger författarna att "Anthropics Claude och andra LLM som det allvarligt hotar försörjningen" för författare. De säger att skrivarbete "börjar torka upp som ett resultat av generativa AI-system som utbildats på dessa författares verk, utan kompensation, till att börja med."

Som bevis för detta beskrivs i stämningsansökan hur en man vid namn Tim Boucher "skrev" 97 böcker med Claude och ChatGPT på mindre än ett år och sålde dem till priser från $1,99 till $5,99.

Stämningsansökan kräver en juryrättegång och ett ospecificerat skadestånd. Det ska bli intressant att se om juryn värderar upphovsrätten högre än nyttan med AI-modeller som Claude.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar