Die KI-Klagen häufen sich: Die US-Komikerin und Autorin Sarah Silverman und die Autoren Christopher Golden und Richard Kadrey klagen gegen OpenAI und Meta.
Das Trio macht eine Urheberrechtsverletzung geltend und behauptet, dass ihre Arbeit unrechtmäßig für das Training von ChatGPT und LLaMA, dem quelloffenen großen Sprachmodell (LLM) von Meta, verwendet wurde.
ChatGPT stützt sich auf die Analyse einer riesigen Menge von Daten aus dem Internet, aus denen es lernt, mit natürlicher Sprache umzugehen. Es gibt viele Fragen zur Herkunft dieser Trainingsdaten und zu den Methoden, mit denen sie abgerufen werden, und der Verdacht erhärtet sich jetzt, da die Erfinder entdecken, dass ihre Arbeit möglicherweise in diesen Trainingsdaten enthalten ist.
In dieser jüngsten Klage wird OpenAI und Meta vorgeworfen, die urheberrechtlich geschützten Bücher der Kläger ohne deren Zustimmung als Trainingsdaten zu verwenden.
Die Klagen legen nahe, dass die Materialien von "Schattenbibliotheken"-Websites bezogen wurden. Schattenbibliotheken enthalten große Mengen an illegal kopierten Informationen, darunter Websites wie Bibliotik, Library Genesis und Z-Library. Schattenbibliotheken sind ähnlich wie Torrents - sie sind schwer zu verhindern und zu kontrollieren.
OpenAI wird vorgeworfen, 3 Bücher auf Aufforderung hin korrekt zusammengefasst zu haben: "The Bedwetter" von Silverman, "Ararat" von Golden und "Sandman Slim" von Kadrey. Die KI könnte zwar aus Wikipedia-Zusammenfassungen und ähnlichem etwas über diese Bücher lernen, aber das würde nicht den Detailgrad der Zusammenfassungen erklären.
In der Klage gegen Meta werden mehrere Werke von Kadrey und Golden sowie "The Bedwetter" genannt, das sich auf ein Meta-Papier bezieht, das auf die Verwendung von Material aus Schattenbibliotheken hinweist, was in der Klage als "eklatant illegal" bezeichnet wird.
Metas Papier Wir nehmen zwei Buchkorpora in unseren Trainingsdatensatz auf: das Gutenberg-Projekt, das gemeinfreie Bücher enthält, und den Bereich Books3 von ThePile (Gao et al., 2020), einen öffentlich zugänglichen Datensatz zum Training großer Sprachmodelle.
Die Anwälte Joseph Saveri und Matthew Butterick, die das Trio vertreten, berichten von wachsenden Bedenken über die beunruhigende Fähigkeit von ChatGPT, urheberrechtlich geschützten Text zu imitieren.
Forschung hat gezeigt, dass GPT-4 mit ziemlicher Sicherheit von urheberrechtlich geschützten Werken gelernt hat.
Dies könnte jedoch daran liegen, dass sie populär und weit verbreitet sind oder in der Schul- und Universitätslektüre auftauchen.
Auf jeden Fall würde das die KI-Unternehmen nicht grundsätzlich davon abhalten, solche Texte in ihren Trainingsdaten zu verwenden.
KI-bezogene Klagen nehmen zu
Die Künstliche Intelligenz ist zum Mittelpunkt einer Reihe von Gerichtsverfahren geworden, von denen viele als die ersten ihrer Art gelten.
Die gleichen Anwälte vertreten auch die US-Autoren Mona Awad und Paul Tremblay in einem separate, aber nahezu identische Sammelklage gegen OpenAI.
Und dasselbe Anwaltsteam, Saveri und Butterick, ist auch 3 Künstler vertreten - Sarah Andersen, Kelly McKernan und Karla Ortiz - in einem Rechtsstreit gegen die Bilderzeuger Stability AI und Midjourney.
Dieselbe Anwaltskanzlei vertrat ein Verfahren gegen Microsft und GitHubdie behauptet, dass ihr KI-Tool Copilot AI Tool von der Arbeit von Open-Source-Programmierern profitiert. Der Fall ist sehr ähnlich - die Kläger argumentieren, dass das KI-Tool auf Informationen trainiert wird, die "Open-Source"-Daten enthalten, die unrechtmäßig extrahiert wurden.
Hier, so behaupten die Beklagten, "geht es in Abschnitt 1202(b) des amerikanischen Digital Millennium Copyright Act um identische 'Kopien ... eines Werks' - nicht um verstreute Ausschnitte und Anpassungen". KI-Unternehmen könnten ähnlich gegen Autoren argumentieren und behaupten, dass die Zusammenfassungen ihrer Werke nicht ausreichen, um ihr Argument zu stützen, dass die Bücher in den Trainingsdaten vollständig vorkommen.
So oder so häufen sich die Anschuldigungen, was auf einen Trend hinweist, dass der rechtliche Druck auf KI-Unternehmen zunimmt.
AI-Verordnungen wie die EU-KI-Gesetz sollen Unternehmen dazu verpflichtet werden, Informationen über urheberrechtlich geschützte Daten in ihren Trainingsdaten offenzulegen. Ob das den gewünschten Effekt haben wird, bleibt abzuwarten.