YouTube CEO advarer OpenAI om potentiel overtrædelse af servicevilkår

5. april 2024

  • YouTube CEO Neal Mohan diskuterede potentielle overtrædelser af vilkår fra OpenAI
  • Hvis Sora var blevet trænet på YouTubes videoer, ville det være en "klar overtrædelse".
  • Sora er en sofistikeret tekst-til-video-model fra OpenAI, som stadig er under afprøvning.
OpenAI YouTube

YouTubes CEO Neal Mohan sagde, at OpenAI's potentielle brug af YouTube-videoer til at træne tekst-til-video-modellen Sora ville være i strid med deres servicevilkår. 

Mohan sagde til Bloomberg: "Hvis Sora brugte indhold fra YouTube, ville det være en 'klar overtrædelse' af deres servicevilkår."

Der vil ikke være nogen tabt kærlighed mellem YouTube og OpenAI, som hver især befinder sig på forskellige sider af Big Tech-kløften. 

Sora er OpenAI's revolutionerende nye tekst-til-video-model, som stadig er under afprøvning. Det betyder, at generativ AI erobrer alle medieformer, først tekst, så billeder og nu lyd og video. 

Generativ video og lyd kommer med et nyt sæt risici, som AI-virksomheder skal forhandle om, f.eks. at deres modeller producerer næsten nøjagtige kopier af copyright-materiale. 

Vi har allerede set dette med tekst-til-lyd-modellen Suno, som producerer meget lignende Lyd til berømte sange som Queens "Bohemian Rhapsody" og ABBAs "Dancing Queen". 

Hverken OpenAI eller de fleste AI-virksomheder har været særligt åbne om deres afhængighed af store mængder data fra internettet, herunder ophavsretligt beskyttet materiale, til at træne modeller. 

OpenAI anerkendte endda udfordringerne ved at undgå ophavsretligt beskyttede data i sine udviklingsprocesser og sagde i et indlæg til Det britiske overhus at "det var 'umuligt' at bygge teknologien uden den." 

Det var lidt af en freudiansk fejl, som afslørede en ubekvem sandhed om AI-træningsdata.

Men på trods af at OpenAI siger, at copyright-data utvetydigt er afgørende for generativ AI, er krænkelse endnu ikke blevet bevist i en domstol, hvilket afspejler, hvordan copyright-lovgivningen i sin nuværende udformning simpelthen ikke var født til denne æra. 

Hvad angår træning af Sora specifikt, vidste OpenAI CTO Mira Murati i et interview med Wall Street Journal tilsyneladende ikke, hvilket indhold der blev brugt til at træne Sora, herunder om der var noget YouTube-indhold involveret. 

Murati sagde: "Det er jeg faktisk ikke sikker på", da han blev spurgt om indholdskilderne til Soras træning, og tilføjede, at alle data, der blev brugt, enten var "offentligt tilgængelige eller under licens".

Det er ikke en strålende rapport om gennemsigtighed for OpenAI, som forbereder sig på at frigive deres banebrydende nye model - en, de allerede bruger til at udbud af forretninger i Hollywood for dets potentielle anvendelse i film og tv. 

Sora har allerede fået producer Tyler Perry til at sætte en $800 millioner til udvidelse af studietog antyder, at der kan komme store omvæltninger for de kreative industrier. 

YouTubes CEO taler om Sora

YouTubes CEO Mohan viste, at han er opmærksom på de igangværende diskussioner om AI-træningspraksis. Han antydede OpenAI's behov for at afklare brugen af YouTube-data. 

Han fortalte Bloomberg"Fra en skabers perspektiv, når en skaber uploader sit hårde arbejde til vores platform, har de visse forventninger. En af de forventninger er, at servicevilkårene vil blive overholdt. Det er ikke tilladt at downloade ting som udskrifter eller videobidder, og det er en klar overtrædelse af vores servicevilkår. Det er de regler, der gælder for indhold på vores platform."

YouTubes servicevilkår forbyder udtrykkeligt "uautoriseret scraping eller downloading af YouTube-indhold", en politik, der blev bekræftet af en talsmand for YouTube i lyset af Mohans kommentarer.

Alphabet, YouTubes moderselskab, er i fuld gang med at udvikle deres egne AI-værktøjer. Vi kan forvente modreaktioner, hvis OpenAI direkte eller indirekte brugte YouTube-videoer til at træne Sora. 

AI-dataguldfeberen har ført til strategiske partnerskaber og licensaftaler mellem teknologivirksomheder og indholdsleverandører. Talrige Retssager er stadig i gang inden for tekst- og billedgenerering, men de er stadig stort set uafklarede. 

For det første, selv når AI-modeller afslører sig selv ved at gengive ophavsretligt beskyttet arbejde (såsom MidJourney spytter billeder ud fra Marvel-film eller Simpsons), gør deres black box-karakter det næsten umuligt at afgøre, hvor disse data blev hentet, og hvornår overtrædelsen præcist fandt sted. 

For det andet kan AI-genereret lyd, billeder, video osv. være et stærkt bevis på krænkelse, men det er ikke så klart, som når du eller jeg kopierer et billede af Mickey Mouse og sælger det for millioner uden tilladelse. 

Som svar på dette juridiske pres er AI-virksomheder begyndt at handle med værdifulde data. 

For eksempel, Reddits $60 millioner om året licensaftale med Google om træning af AI-værktøjer er et eksempel på de formelle aftaler, der er ved at opstå i branchen. 

På samme måde har medieorganisationer som The Associated Press og Axel Springer har indgået aftaler så deres indhold kan bruges til AI-træning, med bestemmelser om tilskrivning i AI-genererede svar.

Det giver sine egne udfordringer. Generativ AI er dyr at opbygge og drive, og nu skal AI-virksomheder betale for dataene i stedet for blot at hente dem fra internettet. 

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser