New York Times (NYT) lämnade in en stämningsansökan mot OpenAI och Microsoft idag och hävdade att företagen bröt mot dess upphovsrätt genom att använda dess innehåll för att träna sina AI-modeller.
Varken Microsoft eller OpenAI vill bekräfta exakt vilka data som användes för att träna modellerna, men det blir allt tydligare att det rörde sig om i stort sett allt som finns tillgängligt på internet.
The Times kontaktade Microsoft och OpenAI i april för att diskutera sin oro över hur deras innehåll användes. I de juridiska handlingarna noterades att de trots dessa ansträngningar inte kunde komma fram till en lösning. I augusti sade de att de var överväger att väcka talan och nu har de äntligen gjort det.
Arkiveringen skriver att de AI-modeller som OpenAI och Microsoft har tränat på NYT:s innehåll "berövar The Times intäkter från prenumerationer, licenser, reklam och affiliates".
När användare ställer ChatGPT eller Copilot en fråga om något som The Times rapporterat om, hävdar stämningsansökan att dessa modeller "genererar utdata som återger Times innehåll ordagrant, sammanfattar det noggrant och efterliknar dess uttrycksstil", och ofta utan länkar till originalartikeln.
När användare får svar på ChatGPT utan att klicka sig vidare till The Times webbplats går företaget miste om reklam- och prenumerationsintäkter.
Medieföretaget äger också recensionswebbplatser som Wirecutter. The Times hävdar att recensionsinnehåll ofta reproduceras av AI-chatbots med hänvisningslänkar borttagna. Detta berövar The Times intäkter från affiliate-referenser.
I stämningsansökan hävdas också att AI-modeller som ChatGPT har en tendens att hallucinera skadar dess rykte. Ibland genereras faktamässigt felaktiga svar som ett resultat av modellens hallucinationer, men som ändå tillskrivs The Times.
Men gjorde den kopior?
De stora AI-företagen verkar alla vara inblandade i upphovsrättsstämningar just nu. OpenAI, Meta, Microsoft, Stabil diffusionoch andra är för närvarande inblandade i stämningar från författare, konstnärer och andra kreativa.
Det allmänna argumentet från de svarande är att AI-modeller inte gör kopior av de data som de tränas på och att användning av upphovsrättsskyddade data för träning faller under principen om rättvis användning.
Exemplen i NYT-stämningen gör det svårt att argumentera för denna punkt. Här är ett exempel på en ChatGPT-interaktion som duplicerar innehåll från The Times ordagrant.
Den juridiska dokumentationen innehåller flera exempel på artiklar som citeras ordagrant av både ChatGPT och Bing Chat/Copilot.
Vad står på spel?
Times stämningsansökan nämner inte någon specifik siffra men säger att Microsoft och OpenAI bör hållas "ansvariga för de miljarder dollar i lagstadgade och faktiska skadestånd som de är skyldiga för den olagliga kopieringen och användningen av The Times unikt värdefulla verk".
Det står också att förutom att stoppa vidare användning av NYT-innehåll ska "alla GPT- eller andra LLM-modeller och träningsuppsättningar som innehåller Times Works" förstöras.
Om den här stämningen går emot OpenAI och Microsoft kommer det att skapa ett prejudikat som nästan säkert kommer att få andra medieutgivare att ställa upp med sina advokater.
Företagen skulle behöva skrota sina modeller och lära upp dem på nytt, men den här gången utan det kränkande innehållet.
För journalistbranschen står hållbarheten för högkvalitativ rapportering på spel. Om de förlorar sin stämning, hur ska då nyhetsutgivare som The Times finansiera skrivandet av artiklar som ofta tar reportrar hundratals timmar att skapa?
Inget av dessa perspektiv är tilltalande. Tidigare denna månad ingick OpenAI ett licensavtal med nyhetsutgivaren Axel Springer att inkludera sitt nyhetsinnehåll i ChatGPT-svar. Att våra nyheter genereras och levereras av AI verkar oundvikligt.
Många tidningar som misslyckades med att gå från print till online finns inte längre. New York Times gjorde den övergången framgångsrikt. Hur kommer denna och andra tidningsutgivare att hantera nästa fas inom journalistiken i AI:s tidevarv?
Låt oss hoppas att vi får behålla både våra AI-modeller och mänskliga reportrar.