YouTube-sjef Neal Mohan sa at OpenAIs potensielle bruk av YouTube-videoer for å trene tekst-til-videomodellen Sora ville være i strid med tjenestevilkårene.
Mohan sa til Bloomberg: "Hvis Sora brukte innhold fra YouTube, ville det være et "klart brudd" på tjenestevilkårene."
Det kommer ikke til å være noen kjærlighetssorg mellom YouTube og OpenAI, som begge befinner seg på hver sin side av Big Tech-skillet.
Sora er OpenAIs revolusjonerende nye tekst-til-video-modell, som fortsatt er under utprøving. Den betyr at generativ AI erobrer alle medieformer, først tekst, deretter bilder, og nå lyd og video.
Generativ video og lyd innebærer nye risikoer for AI-selskapene, for eksempel at modellene deres produserer nesten eksakte kopier av opphavsrettslig beskyttet materiale.
Vi har allerede sett dette med tekst-til-lyd-modellen Suno, som produserer svært like lyd til kjente sanger som Queens "Bohemian Rhapsody" og ABBAs "Dancing Queen".
Verken OpenAI eller de fleste AI-selskaper har vært særlig åpne om at de bruker store mengder data fra internett, inkludert opphavsrettsbeskyttet materiale, til å trene opp modeller.
OpenAI erkjente til og med utfordringene med å unngå opphavsrettsbeskyttede data i utviklingsprosessene sine, og uttalte i en henvendelse til Det britiske overhuset at "det var "umulig" å bygge teknologien uten den".
Det var en freudiansk glipp som avslørte en ubehagelig sannhet om AI-treningsdata.
Til tross for at OpenAI hevder at opphavsrettsdata utvilsomt er avgjørende for generativ AI, har det ennå ikke blitt bevist brudd på opphavsretten i en rettssak, noe som gjenspeiler at opphavsretten i sin nåværende form rett og slett ikke er skapt for denne epoken.
Når det gjelder opplæring av Sora spesifikt, visste OpenAIs teknologidirektør Mira Murati, i et intervju med Wall Street Journal, tilsynelatende ikke hvilket innhold som ble brukt til å trene Sora, inkludert om noe YouTube-innhold var involvert.
"Jeg er faktisk ikke sikker på det", sa Murati da hun ble spurt om kildene til innholdet i Soras opplæring, og la til at all data som ble brukt, enten var "offentlig tilgjengelig eller lisensiert".
Det er ikke en skinnende rapport om åpenhet for OpenAI når de forbereder seg på å lansere sin banebrytende nye modell - en modell de allerede bruker til å anbud på virksomhet i Hollywood for sine potensielle bruksområder innen film og TV.
Sora har allerede fått produsent Tyler Perry til å ta en pause i en $800 millioner kroner til utvidelse av studio, noe som tyder på potensielt store omveltninger for de kreative bransjene fremover.
YouTubes administrerende direktør snakker om Sora
YouTube-sjef Mohan viste at han var klar over de pågående diskusjonene om AI-treningspraksis. Han antydet OpenAIs behov for å klargjøre bruken av YouTube-data.
Han fortalte Bloomberg"Når en opphavsperson laster opp sitt harde arbeid til plattformen vår, har han eller hun visse forventninger. En av disse forventningene er at tjenestevilkårene skal overholdes. Det er ikke tillatt å laste ned ting som transkripsjoner eller videobiter, og det er et klart brudd på tjenestevilkårene våre. Det er slik reglene er når det gjelder innhold på plattformen vår."
YouTubes tjenestevilkår "forbyr eksplisitt uautorisert skraping eller nedlasting av YouTube-innhold", noe en talsperson for YouTube bekrefter i lys av Mohans kommentarer.
Alphabet, YouTubes morselskap, er ivrig etter å utvikle sine egne AI-verktøy. Vi kan forvente motreaksjoner hvis OpenAI direkte eller indirekte brukte YouTube-videoer til å trene opp Sora.
Gullrushet for AI-data har ført til strategiske partnerskap og lisensavtaler mellom teknologiselskaper og innholdsleverandører. En rekke søksmål er fortsatt i gang innen tekst- og bildegenerering, men disse er i liten grad konkluderende.
For det første, selv når AI-modeller eksponerer seg selv ved å reprodusere opphavsrettslig beskyttet arbeid (som MidJourney spytter ut bilder fra Marvel-filmer eller Simpsons), gjør deres black box-karakter det nærmest umulig å fastslå hvor disse dataene ble hentet fra og nøyaktig når krenkelsen fant sted.
For det andre: Selv om AI-generert lyd, bilder, video osv. kan illustrere sterke bevis på krenkelse, er det ikke like opplagt som at du eller jeg kopierer et bilde av Mikke Mus og selger det for millioner uten tillatelse.
Som svar på dette juridiske presset begynner AI-selskaper å håndtere verdifulle data.
For eksempel, Reddits $60 millioner per år lisensieringsavtale med Google for opplæring i AI-verktøy er et eksempel på de formelle ordningene som er i ferd med å vokse frem i bransjen.
På samme måte har medieorganisasjoner som The Associated Press og Axel Springer har inngått avtaler slik at innholdet deres kan brukes til AI-trening, med bestemmelser om attribusjon i AI-genererte svar.
Dette byr på sine egne utfordringer. Generativ AI er kostbart å bygge og drive, og nå må AI-selskapene betale for dataene i stedet for bare å hente dem fra internett.