En gruppe forfattere indgav mandag et gruppesøgsmål mod Anthropic ved en domstol i Californien. Forfatterne hævder, at Anthropic har opbygget sin forretning ved at "stjæle hundredtusinder af ophavsretligt beskyttede bøger".
De tre forfattere, Andrea Bartz, Charles Graeber og Kirk Wallace Johnson, hævder, at deres bøger var en del af det datasæt, som Anthropic brugte til at træne sin familie af Claude modeller. I deres søgsmål hævder de, at Anthropic var skyldig i at "downloade og kopiere hundredtusindvis af ophavsretligt beskyttede bøger fra piratkopierede og ulovlige hjemmesider".
Forfatterne satte spørgsmålstegn ved Anthropics påstand om at være en almennyttig virksomhed og sagde: "Det er ingen overdrivelse at sige, at Anthropics model søger at tjene penge på at udvinde det menneskelige udtryk og den opfindsomhed, der ligger bag hvert eneste af disse værker."
Bunken
De pågældende bøger er en del af et kontroversielt datasæt kaldet Books3, som tidligere var en del af et større datasæt kaldet The Pile. Det er generelt accepteret, men ikke indrømmet, at næsten alle de store LLM'er har trænet deres modeller på The Pile.
The Pile består af omkring 825 GB akademiske artikler, bøger, hjemmesider, tekniske dokumenter og meget mere. En af arkitekterne bag The Pile er en uafhængig udvikler ved navn Shawn Presser. Presser skabte Books3-datasættet i 2020 og tilføjede det til The Pile.
Books3 indeholder 196.640 bøger i almindeligt tekstformat af berømte forfattere som Stephen King samt de forfattere, der har anlagt denne sag. Det antages, at Presser brugte Bibliotik, en berygtet torrent-tracker, der bruges af et fællesskab af bogpirater, som kun er inviteret, som kilde til Books3.
Antag, at du ville træne en GPT-model i verdensklasse, ligesom OpenAI. Hvordan det? Du har ingen data.
Nu gør du det. Nu gør alle det.
Præsentation af "books3", også kendt som "all of bibliotik"
- 196.640 bøger
- i almindelig .txt
- pålidelig, direkte download, i årevis: https://t.co/KKSrhEAnrDtråd 👇 pic.twitter.com/m6bdpHfYJx
- Shawn Presser (@theshawwn) 25. oktober 2020
Da The Pile blev hostet og gjort offentligt tilgængelig online af nonprofit-organisationen EleutherAI, blev der gjort opmærksom på årsagerne til at inkludere de piratkopierede bøger. EleutherAI sagde: "Vi inkluderede Bibliotik, fordi bøger er uvurderlige til langtrækkende forskning i kontekstmodellering og sammenhængende historiefortælling."
I august 2023 blev Books3 fjernet fra den "mest officielle" udgave af The Pile, men på det tidspunkt var den blevet brugt af stort set alle de store navne inden for udvikling af AI-modeller.
I juli 2024 erkendte Anthropic offentligt, at de brugte The Pile til at træne deres Claude-modeller. Mens Anthropic endnu ikke har svaret på søgsmålet, vil det sandsynligvis vende tilbage til det samme "fair use"-forsvar, som OpenAI og andre der står over for lignende retssager, bruger.
Den virkelige skade
Ud over spørgsmålet om ophavsret afslører retssagen den reelle frygt, som forfattere har for, at AI skal overtage deres indtægtskilde.
Søgsmålet hævder, at "Anthropic ved at tage forfatternes værker uden kompensation har frataget forfatterne indtægter fra bogsalg og licenser." Det kan være svært at bevise. Claude beskriver bogen "The Feather Thief" af Kirk Wallace Johnson, men nægter at gengive så meget som en enkelt side.
Jeg mistænker Claude for at lyve, når den svarer "Jeg beklager, men jeg har ikke adgang til den faktiske tekst i "Fjertyven" eller dens første side", fordi den fortsætter med at beskrive, hvad der foregår på side 1. Hvis du vil læse bogen, er du nødt til at købe den eller gå på biblioteket.
Alligevel siger forfatterne, at "Anthropic's Claude og andre LLM'er som den alvorligt truer forfatternes levebrød". De siger, at skrivearbejdet "begynder at tørre ud som følge af generative AI-systemer, der er trænet på disse forfatteres værker uden kompensation til at begynde med."
Som bevis på dette fortæller søgsmålet, hvordan en mand ved navn Tim Boucher "skrev" 97 bøger ved hjælp af Claude og ChatGPT på mindre end et år og solgte dem til priser fra $1,99 til $5,99.
Retssagen kræver en nævningesag og en uspecificeret erstatning. Det bliver interessant at se, om jurymedlemmerne vægter ophavsretten højere end nytten af AI-modeller som Claude.