AI-rechtszaken volgen elkaar in hoog tempo op nu de Amerikaanse komiek en schrijfster Sarah Silverman en auteurs Christopher Golden en Richard Kadrey rechtszaken aanspannen tegen OpenAI en Meta.
Het trio beweert dat hun werk onrechtmatig is gebruikt voor het trainen van ChatGPT en LLaMA, Meta's open-source grote taalmodel (LLM).
ChatGPT is afhankelijk van de analyse van een kolossale hoeveelheid gegevens afkomstig van het internet - het zijn deze gegevens die het leren hoe om te gaan met natuurlijke taal. Er zijn veel vragen rond de herkomst van deze trainingsgegevens en de methoden die zijn gebruikt om ze te verzamelen, en de verdenkingen worden groter nu makers ontdekken dat hun werk mogelijk in die trainingsgegevens is opgenomen.
In deze laatste rechtszaak worden OpenAI en Meta beschuldigd van het gebruiken van auteursrechtelijk beschermde boeken van de eisers als trainingsgegevens zonder hun toestemming.
De rechtszaken suggereren dat de materialen afkomstig waren van "schaduwbibliotheek" websites. Schaduwbibliotheken bevatten grote hoeveelheden illegaal gekopieerde informatie, waaronder sites als Bibliotik, Library Genesis en Z-Library. Schaduwbibliotheken zijn vergelijkbaar met torrents - ze zijn moeilijk te voorkomen en te controleren.
OpenAI wordt beschuldigd van het nauwkeurig samenvatten van 3 boeken wanneer daarom gevraagd wordt: Silverman's "The Bedwetter," Golden's "Ararat," en Kadrey's "Sandman Slim." Hoewel de AI over zulke boeken zou kunnen leren van samenvattingen op Wikipedia en dergelijke, zou dit niet het detailniveau in de samenvattingen verklaren.
In de rechtszaak tegen Meta worden verschillende werken van Kadrey en Golden genoemd, plus "The Bedwetter", verwijzend naar een document van Meta waarin het gebruik van materiaal uit schaduwbibliotheken wordt aangegeven, wat in de rechtszaak als "overduidelijk illegaal" wordt bestempeld.
Meta's artikel zegt: "We nemen twee boekcorpora op in onze trainingsdataset: het Gutenberg Project, dat boeken bevat die tot het publieke domein behoren, en de Books3-sectie van ThePile (Gao et al., 2020), een openbaar beschikbare dataset voor het trainen van grote taalmodellen."
Joseph Saveri en Matthew Butterick, advocaten die het trio vertegenwoordigen, hebben melding gemaakt van toenemende bezorgdheid over het verontrustende vermogen van ChatGPT om auteursrechtelijk beschermde tekst na te bootsen.
Onderzoek heeft aangetoond dat GPT-4 bijna zeker heeft geleerd van auteursrechtelijk beschermde werken.
Dit kan echter komen doordat ze populair zijn en op grote schaal circuleren of voorkomen in lezingen op scholen en universiteiten.
In elk geval zou dat AI-bedrijven er niet strikt van weerhouden om zulke teksten in hun trainingsgegevens te gebruiken.
AI-gerelateerde rechtszaken nemen toe
AI is het middelpunt geworden van een storm van rechtszaken, waarvan vele als de eerste in hun soort worden beschouwd.
Dezelfde advocaten vertegenwoordigen ook de Amerikaanse auteurs Mona Awad en Paul Tremblay in een afzonderlijke maar bijna identieke class action rechtszaak tegen OpenAI.
En nogmaals, datzelfde juridische team, Saveri en Butterick, zijn vertegenwoordigt 3 artiesten - Sarah Andersen, Kelly McKernan en Karla Ortiz - in een rechtszaak tegen beeldgenerators Stability AI en Midjourney.
Datzelfde advocatenkantoor vertegenwoordigde een zaak tegen Microsft en GitHub, die beweren dat hun AI-tool Copilot heeft geprofiteerd van het werk van open-source programmeurs. Het is een zeer vergelijkbare zaak - de aanklagers beweren dat de AI-tool is getraind op informatie die "open-source" gegevens bevat die onrechtmatig zijn onttrokken.
Hier beweren de gedaagden: "Sectie 1202(b) van de Amerikaanse Digital Millennium Copyright Act "gaat over identieke 'kopieën ... van een werk' - niet over losse fragmenten en bewerkingen." AI-bedrijven kunnen hetzelfde argument aanvoeren tegen auteurs, door te suggereren dat de samenvattingen van hun werk onvoldoende zijn om hun argument te ondersteunen dat de boeken volledig in de trainingsgegevens voorkomen.
Hoe dan ook, de beschuldigingen stapelen zich op, wat duidt op een trend van toenemende juridische druk op AI-bedrijven.
AI-regelgeving zoals de EU AI-wet bedrijven gaan verplichten om informatie over auteursrechtelijk beschermde gegevens in hun trainingsgegevens openbaar te maken. Of dat het gewenste effect zal hebben, valt nog te bezien.