Fler författare försöker stämma OpenAI för användning av upphovsrättsskyddat material

10 juli 2023

chatgpt Rättsfall

AI-stämningar kommer tätt och snabbt när den amerikanska komikern och författaren Sarah Silverman och författarna Christopher Golden och Richard Kadrey lämnar in stämningar mot OpenAI och Meta.

Trion hävdar upphovsrättsintrång och hävdar att deras arbete olagligen användes för utbildning av ChatGPT och LLaMA, Metas open source large language model (LLM). 

ChatGPT förlitar sig på analysen av en kolossal mängd data från internet - det är dessa data som lär den hur man hanterar naturligt språk. Många frågor omger ursprunget till dessa utbildningsdata och de metoder som används för att hämta dem, och misstankarna fördjupas nu när skaparna upptäcker att deras arbete eventuellt finns i dessa utbildningsdata. 

I den senaste stämningen anklagas OpenAI och Meta för att ha använt kärandenas upphovsrättsskyddade böcker som träningsdata utan deras samtycke. 

Stämningarna tyder på att materialet hämtades från webbplatser med "skuggbibliotek". Skuggbibliotek innehåller stora mängder olagligt kopierad information, inklusive webbplatser som Bibliotik, Library Genesis och Z-Library. Skuggbibliotek liknar torrents - de är svåra att förhindra och kontrollera. 

OpenAI anklagas för att ha gjort korrekta sammanfattningar av tre böcker när de tillfrågades: Silverman's "The Bedwetter", Golden's "Ararat" och Kadrey's "Sandman Slim". Även om AI:n skulle kunna lära sig om dessa böcker från Wikipedia-sammanfattningar och liknande, skulle detta inte förklara detaljnivån i sammanfattningarna. 

I stämningsansökan mot Meta nämns flera verk av Kadrey och Golden, plus "The Bedwetter", som hänvisar till ett Meta-dokument som anger användningen av material från skuggbibliotek, vilket i stämningsansökan betecknas som "uppenbart olagligt". 

Metas uppsats säger, "Vi inkluderar två bokkorpora i vår träningsdataset: Gutenberg-projektet, som innehåller böcker som är i allmänhetens domän, och Books3-avsnittet i ThePile (Gao et al., 2020), en offentligt tillgänglig dataset för träning av stora språkmodeller." 

Joseph Saveri och Matthew Butterick, advokater som representerar trion, har rapporterat om ökande oro över ChatGPT:s oroande förmåga att efterlikna upphovsrättsskyddad text.

Forskning har visat att GPT-4 nästan definitivt har lärt sig från upphovsrättsskyddade verk.

Det kan dock bero på att de är populära och har stor spridning eller förekommer i kurslitteratur på skolor och universitet. 

I vilket fall som helst skulle det inte utesluta AI-företag från att använda sådana texter i sina utbildningsdata.

AI-relaterade stämningar ökar

AI har blivit centrum för en storm av stämningar, av vilka många anses vara de första i sitt slag. 

Samma advokater företräder också de amerikanska författarna Mona Awad och Paul Tremblay i ett separat men nästan identisk grupptalan mot OpenAI. 

Och återigen, samma juridiska team, Saveri och Butterick, är representerar 3 konstnärer - Sarah Andersen, Kelly McKernan och Karla Ortiz - i en stämning mot bildproducenterna Stability AI och Midjourney. 

Samma advokatbyrå företrädde en mål mot Microsft och GitHubsom hävdade att deras AI-verktyg Copilot AI-verktyg drog nytta av arbetet hos programmerare med öppen källkod. Det är ett mycket liknande fall - kärandena hävdar att AI-verktyget tränas på information som innehåller data från "öppen källkod" som extraheras olagligt. 

Här hävdar de tilltalade att "avsnitt 1202 (b) i Amerikas Digital Millennium Copyright Act" handlar om identiska "kopior ... av ett verk" - inte om avvikande utdrag och anpassningar. AI-företag kan argumentera på liknande sätt mot författare och föreslå att sammanfattningarna av deras arbete är otillräckliga för att stödja deras argument att böckerna förekommer i träningsdata i sin helhet.

Hur som helst, anklagelserna hopar sig, vilket tyder på en trend med ökande juridiska påtryckningar på AI-företag.

AI-regleringar som t.ex. EU:s AI-lag kommer att kräva att företag lämnar ut information om upphovsrättsskyddade data i sina utbildningsdata. Huruvida det kommer att ha önskad effekt återstår att se. 

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar