Forfattere sagsøger Anthropic for at bruge piratkopierede bøger til at træne Claude

21. august 2024

  • Tre forfattere har anlagt et gruppesøgsmål om ophavsret mod Anthropic
  • Forfatterne hævder, at Anthropic brugte deres og andres ophavsretligt beskyttede bøger til at træne sine Claude-modeller.
  • Bøgerne var en del af et offentligt tilgængeligt datasæt, der tidligere indeholdt piratkopierede bøger.

En gruppe forfattere indgav mandag et gruppesøgsmål mod Anthropic ved en domstol i Californien. Forfatterne hævder, at Anthropic har opbygget sin forretning ved at "stjæle hundredtusinder af ophavsretligt beskyttede bøger".

De tre forfattere, Andrea Bartz, Charles Graeber og Kirk Wallace Johnson, hævder, at deres bøger var en del af det datasæt, som Anthropic brugte til at træne sin familie af Claude modeller. I deres søgsmål hævder de, at Anthropic var skyldig i at "downloade og kopiere hundredtusindvis af ophavsretligt beskyttede bøger fra piratkopierede og ulovlige hjemmesider".

Forfatterne satte spørgsmålstegn ved Anthropics påstand om at være en almennyttig virksomhed og sagde: "Det er ingen overdrivelse at sige, at Anthropics model søger at tjene penge på at udvinde det menneskelige udtryk og den opfindsomhed, der ligger bag hvert eneste af disse værker."

Bunken

De pågældende bøger er en del af et kontroversielt datasæt kaldet Books3, som tidligere var en del af et større datasæt kaldet The Pile. Det er generelt accepteret, men ikke indrømmet, at næsten alle de store LLM'er har trænet deres modeller på The Pile.

The Pile består af omkring 825 GB akademiske artikler, bøger, hjemmesider, tekniske dokumenter og meget mere. En af arkitekterne bag The Pile er en uafhængig udvikler ved navn Shawn Presser. Presser skabte Books3-datasættet i 2020 og tilføjede det til The Pile.

Books3 indeholder 196.640 bøger i almindeligt tekstformat af berømte forfattere som Stephen King samt de forfattere, der har anlagt denne sag. Det antages, at Presser brugte Bibliotik, en berygtet torrent-tracker, der bruges af et fællesskab af bogpirater, som kun er inviteret, som kilde til Books3.

Da The Pile blev hostet og gjort offentligt tilgængelig online af nonprofit-organisationen EleutherAI, blev der gjort opmærksom på årsagerne til at inkludere de piratkopierede bøger. EleutherAI sagde: "Vi inkluderede Bibliotik, fordi bøger er uvurderlige til langtrækkende forskning i kontekstmodellering og sammenhængende historiefortælling."

I august 2023 blev Books3 fjernet fra den "mest officielle" udgave af The Pile, men på det tidspunkt var den blevet brugt af stort set alle de store navne inden for udvikling af AI-modeller.

I juli 2024 erkendte Anthropic offentligt, at de brugte The Pile til at træne deres Claude-modeller. Mens Anthropic endnu ikke har svaret på søgsmålet, vil det sandsynligvis vende tilbage til det samme "fair use"-forsvar, som OpenAI og andre der står over for lignende retssager, bruger.

Den virkelige skade

Ud over spørgsmålet om ophavsret afslører retssagen den reelle frygt, som forfattere har for, at AI skal overtage deres indtægtskilde.

Søgsmålet hævder, at "Anthropic ved at tage forfatternes værker uden kompensation har frataget forfatterne indtægter fra bogsalg og licenser." Det kan være svært at bevise. Claude beskriver bogen "The Feather Thief" af Kirk Wallace Johnson, men nægter at gengive så meget som en enkelt side.

Jeg mistænker Claude for at lyve, når den svarer "Jeg beklager, men jeg har ikke adgang til den faktiske tekst i "Fjertyven" eller dens første side", fordi den fortsætter med at beskrive, hvad der foregår på side 1. Hvis du vil læse bogen, er du nødt til at købe den eller gå på biblioteket.

Alligevel siger forfatterne, at "Anthropic's Claude og andre LLM'er som den alvorligt truer forfatternes levebrød". De siger, at skrivearbejdet "begynder at tørre ud som følge af generative AI-systemer, der er trænet på disse forfatteres værker uden kompensation til at begynde med."

Som bevis på dette fortæller søgsmålet, hvordan en mand ved navn Tim Boucher "skrev" 97 bøger ved hjælp af Claude og ChatGPT på mindre end et år og solgte dem til priser fra $1,99 til $5,99.

Retssagen kræver en nævningesag og en uspecificeret erstatning. Det bliver interessant at se, om jurymedlemmerne vægter ophavsretten højere end nytten af AI-modeller som Claude.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser