Inblick i Big Techs kamp om AI-träningsdata

8 april 2024

  • Teknikjättar som Google, Meta och OpenAI vill säkra mer data
  • Detta har lett till att de ägnar sig åt alltmer etiskt och juridiskt tvivelaktiga taktiker
  • OpenAI kan ha använt YouTube-transkriptioner för att träna GPT-4, till exempel
Uppgifter

I den frenetiska jakten på AI-träningsdata har teknikjättarna OpenAI, Google och Meta enligt uppgift kringgått företagspolicyer, ändrat sina regler och diskuterat kringgående av upphovsrättslagstiftningen. 

A New York Times undersökning avslöjar hur långt dessa företag har gått för att samla in onlineinformation för att mata sina datahungriga AI-system.

I slutet av 2021 utvecklade OpenAI-forskare ett taligenkänningsverktyg som heter Whisper för att transkribera YouTube-videor när det råder brist på ansedda engelskspråkiga textdata. 

Trots interna diskussioner om att eventuellt bryta mot YouTubes regler, som förbjuder användning av dess videor för "oberoende" applikationer, 

NYT fann att OpenAI i slutändan transkriberade över en miljon timmar YouTube-innehåll. Greg Brockman, OpenAI:s president, hjälpte personligen till med att samla in videorna. Den transkriberade texten matades sedan in i GPT-4.

Google påstås också ha transkriberat YouTube-videor för att samla in text till sina AI-modeller, vilket potentiellt kan innebära intrång i videoskaparnas upphovsrätt.

Detta kommer dagar efter att YouTubes VD sa att sådan aktivitet skulle bryta mot företagets användarvillkor och underminera kreatörer. 

I juni 2023 begärde Googles juridiska avdelning att företagets integritetspolicy skulle ändras så att offentligt tillgängligt innehåll från Google Docs och andra Google-appar skulle kunna användas för ett bredare utbud av AI-produkter. 

Meta, som står inför sin egen databrist, har övervägt olika alternativ för att skaffa mer utbildningsdata. 

Cheferna diskuterade att betala för boklicensrättigheter, köpa förlaget Simon & Schuster och till och med skörda upphovsrättsskyddat material från internet utan tillstånd, med risk för potentiella stämningar. 

Metas advokater hävdade att användning av data för att träna AI-system borde falla under "rättvis användning", med hänvisning till ett domstolsbeslut från 2015 som involverade Googles bokskanningsprojekt.

Etiska frågor och framtiden för AI-träningsdata

Dessa teknikföretags kollektiva agerande belyser den avgörande betydelsen av online-data i den blomstrande AI-industrin.

Dessa metoder har väckt frågor om upphovsrättsintrång och rättvis ersättning till upphovsmännen. 

Justine Bateman, filmskapare och författare, berättade för Copyright Office att AI-modeller tog innehåll - inklusive hennes texter och filmer - utan tillstånd eller betalning.

"Det här är den största stölden i USA, punkt slut", säger hon i en intervju.

Inom bildkonsten har MidJourney och andra bildmodeller varit bevisat att generera upphovsrätt innehåll, som scener från Marvel-filmer. 

Eftersom vissa experter förutspår att högkvalitativ onlinedata kan vara uttömd 2026, utforskar företagen alternativa metoder, som att generera syntetisk data med hjälp av AI-modeller. Syntetisk utbildningsdata medför dock sina egna risker och utmaningar och kan ha en negativ inverkan på påverka modellernas kvalitet

OpenAI:s VD Sam Altman erkände själv att onlinedata är en begränsad tillgång i ett tal på en teknikkonferens i maj 2023: "Det kommer att ta slut", sa han.

Sy Damle, en advokat som företräder Andreessen Horowitz, ett riskkapitalbolag i Silicon Valley, diskuterade också utmaningen: "Det enda praktiska sättet för dessa verktyg att existera är om de kan tränas på enorma mängder data utan att behöva licensiera dessa data. Den data som behövs är så massiv att inte ens kollektiv licensiering verkligen kan fungera."

NYT och OpenAI är fastlåsta i en bitter upphovsrättsstämningTimes begärde vad som sannolikt skulle bli miljonbelopp i skadestånd.

OpenAI slog tillbaka och anklagade Times för att "hacka" sina modeller för att hämta exempel på upphovsrättsintrång.

Med "hacking" menar de jailbreaking eller red-teaming, vilket innebär att man riktar in sig på modellen med speciellt formulerade uppmaningar som är avsedda att manipulera resultaten.

NYT skrev att de inte skulle behöva jailbreaka modeller om AI-företagen var transparenta med vilka data de använde.

Det råder ingen tvekan om att denna insiderutredning ytterligare framhäver Big Techs datakupp som etiskt och juridiskt oacceptabel.

Med stämningar som hopar sig, det juridiska landskapet kring användningen av onlinedata för AI-träning är extremt osäkert. 

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar