En gruppe forfattere leverte mandag inn et gruppesøksmål mot Anthropic til en domstol i California. Forfatterne hevder at Anthropic har bygget opp sin virksomhet ved å "stjele hundretusener av opphavsrettsbeskyttede bøker".
De tre forfatterne, Andrea Bartz, Charles Graeber og Kirk Wallace Johnson, hevder at bøkene deres var en del av datasettet som Anthropic brukte for å trene opp sin familie av Claude modeller. I søksmålet hevder de at Anthropic har gjort seg skyldig i "nedlasting og kopiering av hundretusener av opphavsrettsbeskyttede bøker hentet fra piratkopierte og ulovlige nettsteder".
Forfatterne satte spørsmålstegn ved Anthropics påstand om å være et allmennyttig selskap og sa: "Det er ingen overdrivelse å si at Anthropics modell søker å tjene penger på å utvinne det menneskelige uttrykket og oppfinnsomheten som ligger bak hvert eneste av disse verkene."
Haugen
De aktuelle bøkene er en del av et kontroversielt datasett kalt Books3, som tidligere var en del av et større datasett kalt The Pile. Det er allment akseptert, men ikke innrømmet, at omtrent alle de store LLM-ene har trent modellene sine på The Pile.
The Pile består av rundt 825 GB med akademiske artikler, bøker, nettsteder, tekniske dokumenter og mye mer. En av arkitektene bak The Pile er en uavhengig utvikler ved navn Shawn Presser. Presser opprettet Books3-datasettet i 2020 og la det til i The Pile.
Books3 inneholder 196 640 bøker i ren tekstformat av kjente forfattere som Stephen King og forfatterne som har anlagt søksmålet. Det antas at Presser brukte Bibliotik, en beryktet torrent-tracker som brukes av et fellesskap av bokpirater, som kilde for Books3.
Sett at du ønsker å trene opp en GPT-modell i verdensklasse, akkurat som OpenAI. Hvordan da? Du har ingen data.
Nå gjør du det. Nå gjør alle det.
Vi presenterer "books3", også kjent som "all of bibliotik"
- 196 640 bøker
- i ren .txt
- pålitelig, direkte nedlasting, i årevis: https://t.co/KKSrhEAnrDtråd 👇 pic.twitter.com/m6bdpHfYJx
- Shawn Presser (@theshawwn) 25. oktober 2020
Da The Pile ble lagt ut og gjort offentlig tilgjengelig på nettet av den ideelle organisasjonen EleutherAI, begrunnet den hvorfor den inkluderte de piratkopierte bøkene. EleutherAI sa: "Vi inkluderte Bibliotik fordi bøker er uvurderlige for langsiktig kontekstmodellering og sammenhengende historiefortelling."
I august 2023 ble Books3 fjernet fra den "mest offisielle" utgaven av The Pile, men på det tidspunktet hadde den blitt brukt av stort sett alle de store navnene innen utvikling av AI-modeller.
I juli 2024 erkjente Anthropic offentlig at de brukte The Pile til å trene Claude-modellene sine. Selv om Anthropic ennå ikke har svart på søksmålet, vil de sannsynligvis gå tilbake til det samme "fair use"-forsvaret som OpenAI og andre som står overfor lignende søksmål, bruker.
Den virkelige skaden
I tillegg til opphavsrettsspørsmålet avslører søksmålet den genuine frykten forfattere har for at AI skal ta over inntektskilden deres.
I søksmålet hevdes det at "Anthropic, ved å ta forfatternes verk uten kompensasjon, har fratatt forfatterne inntekter fra boksalg og lisensiering". Det kan bli vanskelig å bevise. Claude vil beskrive boken "Fjærtyven" av Kirk Wallace Johnson, men nekter å gjengi en eneste side.
Jeg mistenker at Claude lyver når den svarer med "Jeg beklager, men jeg har ikke tilgang til den faktiske teksten i "Fjærtyven" eller dens første side", fordi den fortsetter med å beskrive hva som skjer på side 1. Hvis du vil lese boken, må du kjøpe den eller gå på biblioteket.
Likevel sier forfatterne at "Anthropics Claude og andre LLM-er som den alvorlig truer levebrødet" til forfattere. De sier at skrivearbeid "begynner å tørke inn som et resultat av generative AI-systemer som er trent på disse forfatternes verk, uten kompensasjon til å begynne med."
Som bevis på dette forteller søksmålet hvordan en mann ved navn Tim Boucher "skrev" 97 bøker ved hjelp av Claude og ChatGPT på mindre enn ett år, og solgte dem til priser fra $1,99 til $5,99.
Søksmålet krever en juryrettssak og uspesifisert erstatning. Det blir interessant å se om jurymedlemmene verdsetter opphavsretten mer enn nytten av AI-modeller som Claude.