OpenAI har bekräftat ett licensavtal med The Associated Press (AP) för att träna sina AI-modeller med hjälp av deras nyhetsarkiv.
Avtalet går i korthet ut på att AP ska ge OpenAI tillgång till sin stora mängd textberättelser för AI-träning. I gengäld kommer OpenAI att utöka sin teknik till AP, vilket gör det möjligt för dem att integrera generativ AI i sina arbetsflöden.
OpenAI kommer att ha rätt att skrapa data från AP:s artikelarkiv som sträcker sig tillbaka till 1985.
"Generativ AI är ett snabbt föränderligt område med enorma konsekvenser för nyhetsbranschen. Vi är glada över att OpenAI inser att faktabaserat, opartiskt nyhetsinnehåll är avgörande för denna teknikutveckling och att de respekterar värdet av våra immateriella rättigheter." sade Kristin Heitmann, AP Senior Vice President och Chief Revenue Officer.
Användningen av offentliga internetdata för att utbilda AI-system håller på att bli en stridsfråga. Detta kommer sannolikt att öka populariteten för dessa typer av privata och sponsrade avtal.
De stora språkmodellerna (LLM) som driver chatbottar hos OpenAI, Google etc. har tränats på en kolossal mängd data som samlats in från allmänt tillgängliga internetkällor.
Detta inkluderar innehåll från tredje part som nyhetsartiklar, Wikipedia-poster och kommentarer från sociala medier och bloggar, allt taget utan uttryckligt tillstånd eller medvetenhet om författarna.
Detta är inte utan juridiska och etiska utmaningar, eftersom det är osannolikt att all denna data samlas in lagligt. Åtminstone förvränger AI-träningsdata innebörden av "öppen" och "allmänt tillgänglig".
Andres Sawicki, professor i immaterialrätt vid University of Miami, kommenterade: "Datauppsättningarna innehåller en hel del innehåll som är upphovsrättsskyddat. Upphovsrättsinnehavarna godkänner inte dessa utnyttjanden. Det är inte svårt att föreställa sig att fler avtal som det med AP kommer att ingås mellan teknikföretag och innehållsproducenter i ett försök att bygga upp en "ren databas". Problemet är att de datamängder som behövs för att träna modellerna är så stora att jag tvivlar på att det kommer att vara möjligt att få tillstånd från ett tillräckligt stort antal ägare för att tekniken ska bli praktisk."
Den här veckan har USA:s federala handelskommission (FTC) inledda utredningar FTC har granskat OpenAI:s metoder för användning av data i modellutbildning. FTC har krävt dokumentation från OpenAI för att förstå dess strategier och identifiera bristande efterlevnad.
OpenAI och AP har uttryckt sig positivt om partnerskapet och säger att de "tror på ansvarsfullt skapande och användning av dessa AI-system".