AI-stämningar kommer tätt och snabbt när den amerikanska komikern och författaren Sarah Silverman och författarna Christopher Golden och Richard Kadrey lämnar in stämningar mot OpenAI och Meta.
Trion hävdar upphovsrättsintrång och hävdar att deras arbete olagligen användes för utbildning av ChatGPT och LLaMA, Metas open source large language model (LLM).
ChatGPT förlitar sig på analysen av en kolossal mängd data från internet - det är dessa data som lär den hur man hanterar naturligt språk. Många frågor omger ursprunget till dessa utbildningsdata och de metoder som används för att hämta dem, och misstankarna fördjupas nu när skaparna upptäcker att deras arbete eventuellt finns i dessa utbildningsdata.
I den senaste stämningen anklagas OpenAI och Meta för att ha använt kärandenas upphovsrättsskyddade böcker som träningsdata utan deras samtycke.
Stämningarna tyder på att materialet hämtades från webbplatser med "skuggbibliotek". Skuggbibliotek innehåller stora mängder olagligt kopierad information, inklusive webbplatser som Bibliotik, Library Genesis och Z-Library. Skuggbibliotek liknar torrents - de är svåra att förhindra och kontrollera.
OpenAI anklagas för att ha gjort korrekta sammanfattningar av tre böcker när de tillfrågades: Silverman's "The Bedwetter", Golden's "Ararat" och Kadrey's "Sandman Slim". Även om AI:n skulle kunna lära sig om dessa böcker från Wikipedia-sammanfattningar och liknande, skulle detta inte förklara detaljnivån i sammanfattningarna.
I stämningsansökan mot Meta nämns flera verk av Kadrey och Golden, plus "The Bedwetter", som hänvisar till ett Meta-dokument som anger användningen av material från skuggbibliotek, vilket i stämningsansökan betecknas som "uppenbart olagligt".
Metas uppsats säger, "Vi inkluderar två bokkorpora i vår träningsdataset: Gutenberg-projektet, som innehåller böcker som är i allmänhetens domän, och Books3-avsnittet i ThePile (Gao et al., 2020), en offentligt tillgänglig dataset för träning av stora språkmodeller."
Joseph Saveri och Matthew Butterick, advokater som representerar trion, har rapporterat om ökande oro över ChatGPT:s oroande förmåga att efterlikna upphovsrättsskyddad text.
Forskning har visat att GPT-4 nästan definitivt har lärt sig från upphovsrättsskyddade verk.
Det kan dock bero på att de är populära och har stor spridning eller förekommer i kurslitteratur på skolor och universitet.
I vilket fall som helst skulle det inte utesluta AI-företag från att använda sådana texter i sina utbildningsdata.
AI-relaterade stämningar ökar
AI har blivit centrum för en storm av stämningar, av vilka många anses vara de första i sitt slag.
Samma advokater företräder också de amerikanska författarna Mona Awad och Paul Tremblay i ett separat men nästan identisk grupptalan mot OpenAI.
Och återigen, samma juridiska team, Saveri och Butterick, är representerar 3 konstnärer - Sarah Andersen, Kelly McKernan och Karla Ortiz - i en stämning mot bildproducenterna Stability AI och Midjourney.
Samma advokatbyrå företrädde en mål mot Microsft och GitHubsom hävdade att deras AI-verktyg Copilot AI-verktyg drog nytta av arbetet hos programmerare med öppen källkod. Det är ett mycket liknande fall - kärandena hävdar att AI-verktyget tränas på information som innehåller data från "öppen källkod" som extraheras olagligt.
Här hävdar de tilltalade att "avsnitt 1202 (b) i Amerikas Digital Millennium Copyright Act" handlar om identiska "kopior ... av ett verk" - inte om avvikande utdrag och anpassningar. AI-företag kan argumentera på liknande sätt mot författare och föreslå att sammanfattningarna av deras arbete är otillräckliga för att stödja deras argument att böckerna förekommer i träningsdata i sin helhet.
Hur som helst, anklagelserna hopar sig, vilket tyder på en trend med ökande juridiska påtryckningar på AI-företag.
AI-regleringar som t.ex. EU:s AI-lag kommer att kräva att företag lämnar ut information om upphovsrättsskyddade data i sina utbildningsdata. Huruvida det kommer att ha önskad effekt återstår att se.