Een groep auteurs heeft maandag in een rechtbank in Californië een collectieve rechtszaak aangespannen tegen Anthropic. De auteurs beweren dat Anthropic zijn bedrijf heeft opgebouwd door "het stelen van honderdduizenden auteursrechtelijk beschermde boeken".
De drie auteurs, Andrea Bartz, Charles Graeber en Kirk Wallace Johnson beweren dat hun boeken deel uitmaakten van de dataset die Anthropic gebruikte om zijn familie van datasets te trainen. Claude modellen. In hun aanklacht beweren ze dat Anthropic schuldig is aan "het downloaden en kopiëren van honderdduizenden auteursrechtelijk beschermde boeken van illegale en illegaal gekopieerde websites".
De auteurs zetten vraagtekens bij de bewering van Anthropic dat het een bedrijf van algemeen nut is en zeggen: "Het is niet overdreven om te zeggen dat het model van Anthropic winst wil maken door de menselijke expressie en vindingrijkheid achter elk van deze werken uit te hollen."
De Stapel
De boeken in kwestie maken deel uit van een controversiële dataset genaamd Books3, die eerder deel uitmaakte van een grotere dataset genaamd The Pile. Het wordt algemeen aangenomen, maar niet toegegeven, dat vrijwel alle grote LLM's hun modellen hebben getraind op The Pile.
The Pile bestaat uit ongeveer 825 GB aan academische papers, boeken, websites, technische documenten en meer. Een van de architecten van The Pile is een onafhankelijke ontwikkelaar genaamd Shawn Presser. Presser creëerde de Books3 dataset in 2020 en voegde deze toe aan The Pile.
Books3 bevat 196.640 boeken in platte tekst van beroemde auteurs zoals Stephen King en de auteurs die deze rechtszaak hebben aangespannen. Men denkt dat Presser Bibliotik, een beruchte torrent tracker die wordt gebruikt door een gemeenschap van alleen uitgenodigde boekpiraten, heeft gebruikt als bron voor Books3.
Stel dat je een GPT-model van wereldklasse wilt trainen, net als OpenAI. Hoe? Je hebt geen gegevens.
Nu wel. Nu doet iedereen het.
Presentatie van "books3", alias "all of bibliotik".
- 196.640 boeken
- in gewone .txt
- betrouwbare, directe download, al jaren: https://t.co/KKSrhEAnrDdraad 👇 pic.twitter.com/m6bdpHfYJx
- Shawn Presser (@theshawwn) 25 oktober 2020
Toen The Pile werd gehost en publiekelijk online beschikbaar werd gesteld door de non-profit EleutherAI, werd aangegeven waarom de illegale boeken waren opgenomen. EleutherAI zei: "We hebben Bibliotik opgenomen omdat boeken van onschatbare waarde zijn voor onderzoek naar contextmodellering op lange termijn en coherente storytelling."
In augustus 2023 werd Books3 verwijderd uit de "meest officiële" kopie van The Pile, maar tegen die tijd was het gebruikt door vrijwel alle grote namen in AI-modelontwikkeling.
In juli 2024 erkende Anthropic publiekelijk dat het The Pile gebruikte om zijn Claude-modellen te trainen. Hoewel Anthropic nog moet reageren op de rechtszaak, zal het waarschijnlijk terugvallen op dezelfde "eerlijk gebruik" verdediging die OpenAI en anderen die soortgelijke rechtszaken voeren.
De echte schade
Naast de auteursrechtkwestie laat de rechtszaak ook zien dat auteurs echt bang zijn dat AI hun inkomstenbron overneemt.
In de aanklacht wordt beweerd dat "Anthropic, door het werk van auteurs zonder compensatie af te nemen, auteurs heeft beroofd van inkomsten uit de verkoop van boeken en licenties". Dat kan moeilijk te bewijzen zijn. Claude beschrijft het boek "The Feather Thief" van Kirk Wallace Johnson, maar weigert zelfs maar één pagina te reproduceren.
Ik vermoed dat Claude liegt als het antwoordt met "Mijn excuses, maar ik heb geen toegang tot de werkelijke tekst van "The Feather Thief" of de eerste pagina ervan", want het gaat verder met beschrijven wat er op pagina 1 gebeurt. Als je het boek wilt lezen, moet je het kopen of naar een bibliotheek gaan.
Toch zeggen de auteurs dat "Anthropic's Claude en andere LLM's zoals deze een ernstige bedreiging vormen voor het levensonderhoud" van auteurs. Ze zeggen dat schrijfwerk "begint op te drogen als gevolg van generatieve AI-systemen die zijn getraind op het werk van die schrijvers, zonder compensatie, om mee te beginnen".
Als bewijs hiervoor wordt in de aanklacht verteld hoe een man genaamd Tim Boucher in minder dan een jaar 97 boeken "schreef" met Claude en ChatGPT en deze verkocht voor prijzen van $1,99 tot $5,99.
De rechtszaak vraagt om een juryrechtspraak en een niet nader genoemde schadevergoeding. Het zal interessant zijn om te zien of de juryleden meer waarde hechten aan auteursrecht dan aan het nut van AI-modellen zoals Claude.