YouTubes VD varnar OpenAI för potentiell överträdelse av användarvillkoren

5 april 2024

  • YouTubes VD Neal Mohan diskuterade potentiella överträdelser av OpenAI:s villkor
  • Om Sora hade tränats på YouTube-videor skulle detta vara en "klar överträdelse
  • Sora är en sofistikerad text-till-video-modell från OpenAI som fortfarande testas
OpenAI YouTube

YouTubes VD Neal Mohan sa att OpenAI:s potentiella användning av YouTube-videor för att träna text-till-videomodellen Sora skulle bryta mot användarvillkoren. 

Mohan sa till Bloomberg: "Om Sora använde innehåll från YouTube skulle det vara en "tydlig överträdelse" av dess användarvillkor."

Det kommer inte att finnas någon förlorad kärlek mellan YouTube och OpenAI, med var och en på olika sidor av Big Tech-klyftan. 

Sora är OpenAI:s revolutionerande nya text-till-video-modell, som fortfarande testas. Den innebär att generativ AI erövrar alla medieformer, först text, sedan bilder och nu ljud och video. 

Generativ video och generativt ljud medför nya risker som AI-företagen måste förhandla om, t.ex. att deras modeller producerar nästan exakta kopior av upphovsrättsskyddat material. 

Vi har redan sett detta med text-till-ljud-modellen Suno, som producerar mycket liknande ljud till kända låtar som Queens "Bohemian Rhapsody" och ABBA:s "Dancing Queen". 

Varken OpenAI eller de flesta AI-företag har varit särskilt transparenta när det gäller deras beroende av stora mängder data från internet, inklusive upphovsrättsskyddat material, för att träna modeller. 

OpenAI erkände till och med utmaningarna med att undvika upphovsrättsskyddade data i sina utvecklingsprocesser och uppgav i en inlaga till Brittiska överhuset att "det var 'omöjligt' att bygga tekniken utan den". 

Det var något av en freudiansk glidning som avslöjade en obekväm sanning om AI-träningsdata.

Men trots att OpenAI hävdar att upphovsrättsdata är otvetydigt avgörande för generativ AI har intrång ännu inte bevisats i domstol, vilket visar att upphovsrättslagstiftningen i sin nuvarande form helt enkelt inte var född för den här eran. 

När det gäller träningen av Sora specifikt, sa OpenAI:s tekniska chef Mira Murati i en intervju med Wall Street Journal att hon inte visste vilket innehåll som användes för att träna Sora, inklusive om något YouTube-innehåll var inblandat. 

Murati sa: "Jag är faktiskt inte säker på det", när han fick frågan om källorna till innehållet i Soras utbildning, och tillade att all data som användes antingen var "allmänt tillgänglig eller licensierad".

Det är inte en lysande rapport om öppenhet för OpenAI när de förbereder sig för att släppa sin banbrytande nya modell - en som de redan använder för att anbudsförfarande för affärer inom Hollywood för dess potentiella tillämpningar inom film och TV. 

Sora har redan fått producenten Tyler Perry att pausa en $800 miljoner för utbyggnad av studionvilket antyder en potentiellt stor omvälvning för de kreativa branscherna framöver. 

YouTubes VD talar om Sora

YouTubes VD Mohan visade att han var medveten om de pågående diskussionerna om AI-utbildningsmetoder. Han antydde OpenAI: s behov av att klargöra användningen av YouTube-data. 

Han berättade Bloomberg"Från en upphovsmans perspektiv, när en upphovsman laddar upp sitt hårda arbete till vår plattform, har de vissa förväntningar. En av dessa förväntningar är att användarvillkoren kommer att följas. Det är inte tillåtet att ladda ner saker som transkriptioner eller videobitar, och det är ett tydligt brott mot våra användarvillkor. Det är dessa regler som gäller för innehåll på vår plattform."

YouTubes användarvillkor förbjuder uttryckligen "obehörig skrapning eller nedladdning av YouTube-innehåll", en policy som bekräftades av en talesman för YouTube mot bakgrund av Mohans kommentarer.

Alphabet, YouTubes moderbolag, är angelägna om att utveckla sina egna AI-verktyg. Vi kan förvänta oss motreaktioner om OpenAI direkt eller indirekt använde YouTube-videor för att träna Sora. 

Guldrushen för AI-data har lett till strategiska partnerskap och licensavtal mellan teknikföretag och innehållsleverantörer. Många stämningar fortfarande pågår inom områdena text- och bildgenerering, men dessa är fortfarande i stort sett ofullständiga. 

För det första, även när AI-modeller exponerar sig genom att reproducera upphovsrättsskyddat arbete (såsom MidJourney spottar ut bilder från Marvel-filmer eller Simpsons), gör deras black box-karaktär det näst intill omöjligt att avgöra var dessa uppgifter hämtades och exakt när intrånget ägde rum. 

För det andra, även om AI-genererat ljud, bilder, video etc. kan illustrera starka bevis på intrång, är det inte lika tydligt som att du eller jag kopierar en bild av Musse Pigg och säljer den för miljoner utan tillstånd. 

Som svar på dessa juridiska påtryckningar börjar AI-företag att hantera värdefull data. 

Till exempel, Reddits $60 miljoner per år licensavtal med Google för utbildning i AI-verktyg exemplifierar de formella arrangemang som växer fram i branschen. 

På samma sätt har medieorganisationer som The Associated Press och Axel Springer har ingått avtal tillåta att deras innehåll används för AI-utbildning, med bestämmelser om tillskrivning i AI-genererade svar.

Detta innebär sina egna utmaningar. Generativ AI är kostsam att bygga upp och driva, och nu måste AI-företagen betala för datan i stället för att bara hämta den från internet. 

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar