Autoren verklagen Anthropic wegen Verwendung raubkopierter Bücher zur Schulung von Claude

21. August 2024

  • Drei Autoren haben eine Urheberrechts-Sammelklage gegen Anthropic eingereicht
  • Die Autoren behaupten, Anthropic habe ihre und andere urheberrechtlich geschützte Bücher verwendet, um seine Claude-Modelle zu trainieren
  • Die Bücher waren Teil eines öffentlich zugänglichen Datensatzes, der zuvor raubkopierte Bücher enthielt

Eine Gruppe von Autoren hat am Montag vor einem kalifornischen Gericht eine Sammelklage gegen Anthropic eingereicht. Die Autoren behaupten, Anthropic habe sein Geschäft durch den "Diebstahl Hunderttausender urheberrechtlich geschützter Bücher" aufgebaut.

Die drei Autoren, Andrea Bartz, Charles Graeber und Kirk Wallace Johnson, behaupten, dass ihre Bücher Teil des Datensatzes waren, den Anthropic zum Trainieren seiner Familie von Claude Modelle. In ihrer Klage behaupten sie, dass Anthropic sich des "Herunterladens und Kopierens von Hunderttausenden urheberrechtlich geschützter Bücher von raubkopierten und illegalen Websites" schuldig gemacht hat.

Die Autoren stellen die Behauptung von Anthropic, ein gemeinnütziges Unternehmen zu sein, in Frage: "Es ist keine Übertreibung zu sagen, dass das Modell von Anthropic darauf abzielt, von der Ausbeutung des menschlichen Ausdrucks und Einfallsreichtums hinter jedem dieser Werke zu profitieren".

Der Stapel

Die fraglichen Bücher sind Teil eines umstrittenen Datensatzes namens Books3, der zuvor Teil eines größeren Datensatzes namens The Pile war. Es ist allgemein anerkannt, aber nicht zugegeben, dass fast alle großen LLMs ihre Modelle auf The Pile trainiert haben.

The Pile besteht aus rund 825 GB akademischer Arbeiten, Büchern, Websites, technischen Dokumenten und mehr. Einer der Architekten von The Pile ist ein unabhängiger Entwickler namens Shawn Presser. Presser erstellte den Datensatz Books3 im Jahr 2020 und fügte ihn zu The Pile hinzu.

Books3 enthält 196.640 Bücher im Klartextformat von berühmten Autoren wie Stephen King sowie von den Autoren, die diese Klage eingereicht haben. Es wird angenommen, dass Presser Bibliotik, einen berüchtigten Torrent-Tracker, der von einer Gemeinschaft von Buchpiraten genutzt wird, als Quelle für Books3 verwendet hat.

Als The Pile von der gemeinnützigen Organisation EleutherAI gehostet und online öffentlich zugänglich gemacht wurde, wies sie auf ihre Gründe für die Aufnahme der raubkopierten Bücher hin. EleutherAI sagte: "Wir haben Bibliotik aufgenommen, weil Bücher von unschätzbarem Wert für die langfristige Kontextmodellierung und das kohärente Geschichtenerzählen sind."

Im August 2023 wurde Books3 aus dem "offiziellsten" Exemplar von The Pile entfernt, aber zu diesem Zeitpunkt war es bereits von so ziemlich allen großen Namen in der KI-Modellentwicklung verwendet worden.

Im Juli 2024 hat Anthropic öffentlich zugegeben, dass es The Pile zum Trainieren seiner Claude-Modelle verwendet hat. Obwohl Anthropic noch nicht auf die Klage reagiert hat, wird es wahrscheinlich auf die gleiche Verteidigung der "fairen Nutzung" zurückgreifen, die OpenAI und andere die mit ähnlichen Klagen konfrontiert sind, verwenden.

Der eigentliche Schaden

Abgesehen von der Frage des Urheberrechts offenbart die Klage die echte Angst der Autoren vor der Übernahme ihrer Einkommensquelle durch die KI.

In der Klage wird behauptet, dass "Anthropic den Autoren durch die entschädigungslose Übernahme ihrer Werke Buchverkäufe und Lizenzeinnahmen vorenthalten hat". Das dürfte schwer zu beweisen sein. Claude wird das Buch "The Feather Thief" von Kirk Wallace Johnson beschreiben, lehnt es aber ab, auch nur eine einzige Seite abzudrucken.

Ich habe den Verdacht, dass Claude lügt, wenn er antwortet: "Ich bitte um Entschuldigung, aber ich habe keinen Zugang zum eigentlichen Text von "Der Federdieb" oder der ersten Seite", denn er beschreibt, was auf Seite 1 passiert. Wenn Sie das Buch lesen wollen, müssen Sie es kaufen oder in eine Bibliothek gehen.

Dennoch sagen die Autoren, dass "Anthropics Claude und andere LLMs wie dieses den Lebensunterhalt" von Autoren ernsthaft bedrohen. Sie sagen, dass die schriftstellerische Arbeit "infolge generativer KI-Systeme, die auf den Werken dieser Autoren trainiert wurden, zu versiegen beginnt, und zwar zunächst ohne Vergütung".

Als Beweis dafür wird in der Klage angeführt, wie ein Mann namens Tim Boucher in weniger als einem Jahr 97 Bücher mit Claude und ChatGPT "schrieb" und sie zu Preisen von $1,99 bis $5,99 verkaufte.

Der Rechtsstreit fordert ein Schwurgerichtsverfahren und Schadenersatz in nicht genannter Höhe. Es wird interessant sein zu sehen, ob die Geschworenen das Urheberrecht höher bewerten als den Nutzen von KI-Modellen wie Claude.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen