Flere forfattere forsøger at sagsøge OpenAI for at bruge copyright-materiale

10. juli 2023

chatgpt Jura-sag

AI-retssager kommer i en lind strøm, når den amerikanske komiker og forfatter Sarah Silverman og forfatterne Christopher Golden og Richard Kadrey lægger sag an mod OpenAI og Meta.

Trioen hævder, at deres arbejde ulovligt er blevet brugt til at træne ChatGPT og LLaMA, Metas open source store sprogmodel (LLM). 

ChatGPT er afhængig af analysen af en kolossal mængde data fra internettet - det er disse data, der lærer den at håndtere naturligt sprog. Der er mange spørgsmål omkring oprindelsen af disse træningsdata og de metoder, der er brugt til at hente dem, og mistanken forstærkes nu, hvor skaberne opdager, at deres arbejde muligvis er indeholdt i disse træningsdata. 

I det seneste søgsmål beskyldes OpenAI og Meta for at bruge sagsøgernes ophavsretligt beskyttede bøger som træningsdata uden deres samtykke. 

Søgsmålene tyder på, at materialerne stammer fra hjemmesider med "skyggebiblioteker". Skyggebiblioteker indeholder store mængder ulovligt kopieret information, herunder sider som Bibliotik, Library Genesis og Z-Library. Skyggebiblioteker ligner torrents - de er svære at forhindre og kontrollere. 

OpenAI beskyldes for at have opsummeret tre bøger korrekt, når de blev bedt om det: Silverman's "The Bedwetter", Golden's "Ararat" og Kadrey's "Sandman Slim". Selv om AI'en kunne lære om sådanne bøger fra Wikipedia-resuméer og lignende, ville det ikke forklare detaljeringsgraden i resuméerne. 

Retssagen mod Meta nævner flere værker af Kadrey og Golden samt "The Bedwetter", som henviser til et Meta-papir, der angiver brugen af materiale fra skyggebiblioteker, hvilket retssagen betegner som "åbenlyst ulovligt". 

Metas artikel siger: "Vi inkluderer to bogkorpora i vores træningsdatasæt: Gutenberg-projektet, som indeholder bøger, der er offentligt tilgængelige, og Books3-sektionen i ThePile (Gao et al., 2020), et offentligt tilgængeligt datasæt til træning af store sprogmodeller." 

Joseph Saveri og Matthew Butterick, advokater, der repræsenterer trioen, har rapporteret om stigende bekymring over ChatGPT's foruroligende evne til at efterligne ophavsretligt beskyttet tekst.

Forskning har vist, at GPT-4 næsten helt sikkert har lært af ophavsretligt beskyttede værker.

Men det kan skyldes, at de er populære og udbredte eller optræder i pensum på skoler og universiteter. 

Under alle omstændigheder ville det ikke helt undskylde AI-virksomheder fra at bruge sådanne tekster i deres træningsdata.

AI-relaterede retssager i stigning

AI er blevet centrum for en storm af retssager, hvoraf mange anses for at være de første af deres slags. 

De samme advokater repræsenterer også de amerikanske forfattere Mona Awad og Paul Tremblay i en separat, men næsten identisk gruppesøgsmål mod OpenAI. 

Og igen, det samme juridiske team, Saveri og Butterick, er repræsenterer 3 kunstnere - Sarah Andersen, Kelly McKernan og Karla Ortiz - i en retssag mod billedproducenterne Stability AI og Midjourney. 

Det samme advokatfirma repræsenterede en sag mod Microsft og GitHubDe hævder, at deres AI-værktøj Copilot AI tool har profiteret af open source-programmørers arbejde. Det er en meget lignende sag - sagsøgerne hævder, at AI-værktøjet er trænet på information, der indeholder "open source"-data, som er udvundet ulovligt. 

Her hævder de sagsøgte, at "afsnit 1202(b) i USA's Digital Millennium Copyright Act "handler om identiske 'kopier ... af et værk' - ikke om spredte uddrag og tilpasninger." AI-virksomheder kan argumentere på samme måde over for forfattere og foreslå, at resuméerne af deres arbejde er utilstrækkelige til at understøtte deres argument om, at bøgerne optræder i træningsdataene i deres helhed.

Uanset hvad hober beskyldningerne sig op, hvilket indikerer en tendens til stigende juridisk pres på AI-virksomheder.

AI-regler som f.eks. EU's lov om kunstig intelligens er klar til at kræve, at virksomheder oplyser om ophavsretligt beskyttede data i deres træningsdata. Om det vil have den ønskede effekt, er endnu uvist. 

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser