I den frenetiska jakten på AI-träningsdata har teknikjättarna OpenAI, Google och Meta enligt uppgift kringgått företagspolicyer, ändrat sina regler och diskuterat kringgående av upphovsrättslagstiftningen.
A New York Times undersökning avslöjar hur långt dessa företag har gått för att samla in onlineinformation för att mata sina datahungriga AI-system.
I slutet av 2021 utvecklade OpenAI-forskare ett taligenkänningsverktyg som heter Whisper för att transkribera YouTube-videor när det råder brist på ansedda engelskspråkiga textdata.
Trots interna diskussioner om att eventuellt bryta mot YouTubes regler, som förbjuder användning av dess videor för "oberoende" applikationer,
NYT fann att OpenAI i slutändan transkriberade över en miljon timmar YouTube-innehåll. Greg Brockman, OpenAI:s president, hjälpte personligen till med att samla in videorna. Den transkriberade texten matades sedan in i GPT-4.
Google påstås också ha transkriberat YouTube-videor för att samla in text till sina AI-modeller, vilket potentiellt kan innebära intrång i videoskaparnas upphovsrätt.
Detta kommer dagar efter att YouTubes VD sa att sådan aktivitet skulle bryta mot företagets användarvillkor och underminera kreatörer.
I juni 2023 begärde Googles juridiska avdelning att företagets integritetspolicy skulle ändras så att offentligt tillgängligt innehåll från Google Docs och andra Google-appar skulle kunna användas för ett bredare utbud av AI-produkter.
Meta, som står inför sin egen databrist, har övervägt olika alternativ för att skaffa mer utbildningsdata.
Cheferna diskuterade att betala för boklicensrättigheter, köpa förlaget Simon & Schuster och till och med skörda upphovsrättsskyddat material från internet utan tillstånd, med risk för potentiella stämningar.
Metas advokater hävdade att användning av data för att träna AI-system borde falla under "rättvis användning", med hänvisning till ett domstolsbeslut från 2015 som involverade Googles bokskanningsprojekt.
Etiska frågor och framtiden för AI-träningsdata
Dessa teknikföretags kollektiva agerande belyser den avgörande betydelsen av online-data i den blomstrande AI-industrin.
Dessa metoder har väckt frågor om upphovsrättsintrång och rättvis ersättning till upphovsmännen.
Justine Bateman, filmskapare och författare, berättade för Copyright Office att AI-modeller tog innehåll - inklusive hennes texter och filmer - utan tillstånd eller betalning.
"Det här är den största stölden i USA, punkt slut", säger hon i en intervju.
Inom bildkonsten har MidJourney och andra bildmodeller varit bevisat att generera upphovsrätt innehåll, som scener från Marvel-filmer.
Eftersom vissa experter förutspår att högkvalitativ onlinedata kan vara uttömd 2026, utforskar företagen alternativa metoder, som att generera syntetisk data med hjälp av AI-modeller. Syntetisk utbildningsdata medför dock sina egna risker och utmaningar och kan ha en negativ inverkan på påverka modellernas kvalitet.
OpenAI:s VD Sam Altman erkände själv att onlinedata är en begränsad tillgång i ett tal på en teknikkonferens i maj 2023: "Det kommer att ta slut", sa han.
Sy Damle, en advokat som företräder Andreessen Horowitz, ett riskkapitalbolag i Silicon Valley, diskuterade också utmaningen: "Det enda praktiska sättet för dessa verktyg att existera är om de kan tränas på enorma mängder data utan att behöva licensiera dessa data. Den data som behövs är så massiv att inte ens kollektiv licensiering verkligen kan fungera."
NYT och OpenAI är fastlåsta i en bitter upphovsrättsstämningTimes begärde vad som sannolikt skulle bli miljonbelopp i skadestånd.
OpenAI slog tillbaka och anklagade Times för att "hacka" sina modeller för att hämta exempel på upphovsrättsintrång.
Med "hacking" menar de jailbreaking eller red-teaming, vilket innebär att man riktar in sig på modellen med speciellt formulerade uppmaningar som är avsedda att manipulera resultaten.
NYT skrev att de inte skulle behöva jailbreaka modeller om AI-företagen var transparenta med vilka data de använde.
Det råder ingen tvekan om att denna insiderutredning ytterligare framhäver Big Techs datakupp som etiskt och juridiskt oacceptabel.
Med stämningar som hopar sig, det juridiska landskapet kring användningen av onlinedata för AI-träning är extremt osäkert.