New York Times (NYT) saksøkte i dag OpenAI og Microsoft, og hevdet at selskapene brøt opphavsretten ved å bruke innholdet til å trene opp AI-modellene sine.
Verken Microsoft eller OpenAI er villige til å bekrefte nøyaktig hvilke data som ble brukt til å trene opp modellene, men det blir stadig tydeligere at det dreide seg om stort sett hva som helst som var tilgjengelig på internett.
The Times henvendte seg til Microsoft og OpenAI i april for å diskutere bekymringene over hvordan innholdet deres ble brukt. I de juridiske dokumentene står det at de til tross for disse anstrengelsene ikke klarte å komme frem til en løsning. I august sa de at de var vurderer å gå til søksmål og nå har de endelig gjort det.
Arkiveringen sier at AI-modellene som OpenAI og Microsoft har trent på NYT-innhold, "fratar The Times abonnements-, lisens-, reklame- og affiliateinntekter".
Når brukere stiller ChatGPT eller Copilot et spørsmål om noe som The Times har rapportert om, hevder søksmålet at disse modellene "genererer utdata som gjengir Times-innhold ordrett, oppsummerer det nøye og etterligner den uttrykksfulle stilen", og ofte uten lenker til den opprinnelige artikkelen.
Når brukerne får svar på ChatGPT uten å klikke seg videre til The Times' nettsted, går selskapet glipp av annonse- og abonnementsinntekter.
Medieselskapet eier også anmeldelsesnettsteder som Wirecutter. The Times hevder at anmeldelsesinnhold ofte reproduseres av AI-chatboter med henvisningskoblingene fjernet. Dette fratar The Times inntekter fra affiliate-henvisninger.
I søksmålet hevdes det også at AI-modeller som ChatGPT har en tendens til å hallusinere, og at dette skader deres omdømme. Noen ganger genereres feilaktige svar som følge av hallusinasjoner fra modellen, men de tilskrives likevel The Times.
Men laget den kopier?
Alle de store AI-selskapene ser ut til å være involvert i opphavsrettssaker for øyeblikket. OpenAI, Meta, Microsoft, Stabil diffusjonog andre er for tiden involvert i søksmål fra forfattere, kunstnere og andre kreative.
Det generelle argumentet fra de saksøkte er at AI-modeller ikke lager kopier av dataene de læres opp på, og at bruk av opphavsrettsbeskyttede data til opplæring faller inn under prinsippet om rettferdig bruk.
Eksemplene i NYT-søksmålet gjør det vanskelig å argumentere for dette poenget. Her er et eksempel på en ChatGPT-interaksjon som dupliserer innhold fra The Times ordrett.
Den juridiske innleveringen inneholder flere eksempler på artikler som er sitert ordrett av både ChatGPT og Bing Chat/Copilot.
Hva står på spill?
Times' søksmål nevner ikke noe spesifikt beløp, men sier at Microsoft og OpenAI bør holdes "ansvarlige for de milliarder av dollar i lovbestemt og faktisk erstatning som de skylder for ulovlig kopiering og bruk av The Times' unikt verdifulle verk".
Det står også at i tillegg til å stoppe videre bruk av NYT-innhold, skal "alle GPT- eller andre LLM-modeller og treningssett som inkorporerer Times Works" destrueres.
Hvis OpenAI og Microsoft går imot dette søksmålet, vil det skape presedens som nesten helt sikkert vil føre til at andre medieutgivere stiller seg i kø med advokatene sine.
Selskapene må skrote modellene sine og lære dem opp på nytt, men denne gangen uten det krenkende innholdet.
For journalistikkbransjen står bærekraften til rapportering av høy kvalitet på spill. Hvis de taper søksmålet, hvordan skal nyhetsutgivere som The Times finansiere skrivingen av artikler som det ofte tar reporterne hundrevis av timer å lage?
Ingen av disse utsiktene er tiltalende. Tidligere denne måneden inngikk OpenAI en lisensavtale med nyhetsutgiveren Axel Springer til å inkludere nyhetsinnholdet i ChatGPT-svarene. Det virker uunngåelig at nyhetene våre genereres og leveres av kunstig intelligens.
Mange aviser som ikke har klart å gå fra papir til nett, finnes ikke lenger. New York Times klarte overgangen med stor suksess. Hvordan vil denne og andre nyhetsutgivere håndtere journalistikkens neste fase i AI-tidsalderen?
La oss håpe at vi får beholde både AI-modellene våre og de menneskelige reporterne.