I den hektiske jakten på AI-treningsdata har teknologigigantene OpenAI, Google og Meta angivelig omgått bedriftens retningslinjer, endret reglene sine og diskutert omgåelse av opphavsrettsloven.
A New York Times' undersøkelse avslører hvor langt disse selskapene har gått for å høste informasjon på nettet for å mate sine datahungrige AI-systemer.
I slutten av 2021 utviklet OpenAI-forskere et talegjenkjenningsverktøy kalt Whisper for å transkribere YouTube-videoer når det er mangel på anerkjente engelskspråklige tekstdata.
Til tross for interne diskusjoner om mulige brudd på YouTubes regler, som forbyr bruk av videoer til "uavhengige" applikasjoner,
NYT fant ut at OpenAI til slutt transkriberte over én million timer med YouTube-innhold. Greg Brockman, OpenAIs president, hjalp personlig til med å samle inn videoene. Den transkriberte teksten ble deretter matet inn i GPT-4.
Google skal også ha transkribert YouTube-videoer for å høste tekst til AI-modellene sine, noe som potensielt krenker videoskapernes opphavsrett.
Dette kommer dager etter at YouTubes administrerende direktør sa at slik aktivitet ville bryte med selskapets tjenestevilkår og undergrave skaperne.
I juni 2023 ba Googles juridiske avdeling om endringer i selskapets retningslinjer for personvern, slik at offentlig tilgjengelig innhold fra Google Dokumenter og andre Google-apper kunne brukes i et bredere spekter av AI-produkter.
Meta, som selv mangler data, har vurdert ulike alternativer for å skaffe seg mer treningsdata.
Ledere diskuterte å betale for boklisensrettigheter, kjøpe forlaget Simon & Schuster og til og med høste opphavsrettsbeskyttet materiale fra Internett uten tillatelse, med risiko for potensielle søksmål.
Metas advokater argumenterte for at bruk av data til å trene opp AI-systemer burde falle inn under "fair use", med henvisning til en rettsavgjørelse fra 2015 som involverte Googles bokskanningsprosjekt.
Etiske bekymringer og fremtiden for AI-opplæringsdata
Disse teknologiselskapenes kollektive handlinger understreker den kritiske betydningen av nettbaserte data i den blomstrende AI-industrien.
Denne praksisen har skapt bekymring for brudd på opphavsretten og rettferdig kompensasjon til opphavsmennene.
Filmskaperen og forfatteren Justine Bateman fortalte Copyright Office at AI-modeller tok innhold - inkludert hennes tekster og filmer - uten tillatelse eller betaling.
"Dette er det største tyveriet i USA, punktum", sier hun i et intervju.
I billedkunsten har MidJourney og andre bildemodeller vært har vist seg å generere opphavsrett innhold, som scener fra Marvel-filmer.
Noen eksperter spår at nettbaserte data av høy kvalitet kan være oppbrukt innen 2026, og selskaper utforsker derfor alternative metoder, for eksempel å generere syntetiske data ved hjelp av AI-modeller selv. Syntetiske treningsdata har imidlertid sine egne risikoer og utfordringer, og kan ha en negativ innvirkning på påvirke kvaliteten på modellene.
OpenAI-sjef Sam Altman erkjente selv at nettdataene er begrensede i en tale på en teknologikonferanse i mai 2023: "Det vil ta slutt", sa han.
Sy Damle, en advokat som representerer Andreessen Horowitz, et venturekapitalfirma i Silicon Valley, diskuterte også utfordringen: "Den eneste praktiske måten disse verktøyene kan eksistere på, er hvis de kan trenes opp på enorme datamengder uten å måtte lisensiere disse dataene. Datamengdene som trengs, er så store at selv ikke kollektiv lisensiering kan fungere."
NYT og OpenAI er låst i en bitter opphavsrettssakTimes krever sannsynligvis millionerstatning.
OpenAI slo tilbake og beskyldte Times for å "hacking" av modellene deres for å finne eksempler på brudd på opphavsretten.
Med "hacking" mener de jailbreaking eller red-teaming, som innebærer at man retter seg mot modellen med spesialformulerte instruksjoner som er ment å manipulere utfallet.
NYT sa at de ikke hadde trengt å ty til jailbreaking-modeller hvis AI-selskapene var åpne om dataene de hadde brukt.
Denne innsidegranskningen bidrar utvilsomt til å stemple Big Techs datakupp som etisk og juridisk uakseptabelt.
Søksmålene hoper seg opp, det juridiske landskapet rundt bruken av nettbaserte data til AI-trening er ekstremt usikkert.