Neal Mohan, amministratore delegato di YouTube, ha dichiarato che l'uso potenziale dei video di YouTube da parte di OpenAI per addestrare il modello text-to-video Sora violerebbe i suoi termini di servizio.
Mohan ha dichiarato a Bloomberg: "Se Sora utilizzasse contenuti di YouTube sarebbe una 'chiara violazione' dei suoi termini di servizio".
Non c'è amore perduto tra YouTube e OpenAI, che si trovano su lati diversi della divisione Big Tech.
Sora è il nuovo rivoluzionario modello text-to-video di OpenAI, ancora in fase di sperimentazione. Significa che l'intelligenza artificiale generativa sta conquistando tutte le forme di media, a partire dal testo, poi le immagini e ora l'audio e il video.
I video e gli audio generativi comportano una nuova serie di rischi che le aziende di IA devono negoziare, come la possibilità che i loro modelli producano repliche quasi esatte di materiale protetto da copyright.
Lo abbiamo già visto con il modello text-to-audio di Suno, che produce un prodotto molto simile a quello di Suno. audio di canzoni famose come "Bohemian Rhapsody" dei Queen e "Dancing Queen" degli ABBA.
Né OpenAI né la maggior parte delle aziende di IA sono state particolarmente trasparenti riguardo all'utilizzo di grandi quantità di dati provenienti da Internet, compreso materiale protetto da copyright, per addestrare i modelli.
OpenAI ha persino riconosciuto le difficoltà di evitare i dati protetti da copyright nei suoi processi di sviluppo, dichiarando in un documento presentato all'associazione Camera dei Lord britannica che "era "impossibile" costruire la tecnologia senza di essa".
Si è trattato di una sorta di lapsus freudiano che ha messo in luce una scomoda verità sui dati di addestramento delle IA.
Tuttavia, nonostante OpenAI abbia dichiarato che i dati sul copyright sono inequivocabilmente vitali per l'IA generativa, la violazione non è ancora stata dimostrata in un tribunale, a testimonianza di come la legge sul copyright nella sua attuale incarnazione non sia semplicemente nata per quest'epoca.
Per quanto riguarda in particolare l'addestramento di Sora, il CTO di OpenAI Mira Murati, in un'intervista al Wall Street Journal, sembra non sapere quali contenuti siano stati utilizzati per addestrare Sora, compreso se siano stati coinvolti contenuti di YouTube.
Murati ha risposto: "In realtà non ne sono sicuro", quando gli è stato chiesto quali fossero le fonti dei contenuti per l'addestramento di Sora, aggiungendo che tutti i dati utilizzati erano "disponibili pubblicamente o concessi in licenza".
Non è un rapporto scintillante di trasparenza per OpenAI, che si prepara a rilasciare il suo nuovo modello rivoluzionario, che sta già utilizzando per gara d'appalto per gli affari all'interno di Hollywood per le sue potenziali applicazioni in campo cinematografico e televisivo.
Sora ha già fatto sì che il produttore Tyler Perry mettesse in pausa una $800 milioni di euro per l'ampliamento dello studiolasciando intendere che le industrie creative potrebbero subire enormi sconvolgimenti.
Il CEO di YouTube parla di Sora
Il CEO di YouTube Mohan ha mostrato di essere consapevole delle discussioni in corso sulle pratiche di formazione dell'IA. Ha accennato alla necessità di OpenAI di chiarire l'uso dei dati di YouTube.
Ha detto BloombergDal punto di vista del creatore, quando un creatore carica il suo lavoro sulla nostra piattaforma, ha determinate aspettative. Una di queste aspettative è che i termini di servizio vengano rispettati. La piattaforma non consente di scaricare trascrizioni o video, e questa è una chiara violazione dei nostri termini di servizio. Queste sono le regole della strada in termini di contenuti sulla nostra piattaforma".
I termini di servizio di YouTube "vietano esplicitamente lo scraping o il download non autorizzato di contenuti di YouTube", una politica confermata da un portavoce di YouTube alla luce dei commenti di Mohan.
Alphabet, la società madre di YouTube, sta sviluppando con grande interesse i propri strumenti di intelligenza artificiale. Possiamo aspettarci un contraccolpo se OpenAI ha usato direttamente o indirettamente i video di YouTube per addestrare Sora.
La corsa all'oro dei dati dell'intelligenza artificiale ha portato a partnership strategiche e accordi di licenza tra aziende tecnologiche e fornitori di contenuti. Numerosi cause legali sono ancora in corso nei settori della generazione di testi e immagini, ma rimangono in gran parte inconcludenti.
In primo luogo, anche quando i modelli di IA si espongono riproducendo opere protette da copyright (come MidJourney sputare immagini dai film della Marvel o dai Simpson), la loro natura di scatola nera rende quasi impossibile determinare dove questi dati sono stati recuperati e quando si è verificata la violazione.
In secondo luogo, mentre l'audio, le immagini, i video e così via generati dall'intelligenza artificiale potrebbero rappresentare una forte prova di violazione, non è così chiaro come se io o voi copiassimo un'immagine di Topolino e la vendessimo per milioni senza autorizzazione.
In risposta a queste pressioni legali, le aziende di IA stanno iniziando a trattare dati preziosi.
Per esempio, Reddit $60 milioni all'anno L'accordo di licenza con Google per la formazione di strumenti di intelligenza artificiale è un esempio degli accordi formali che stanno emergendo nel settore.
Allo stesso modo, organizzazioni di media come The Associated Press e Axel Springer hanno stipulato accordi consentendo l'utilizzo dei loro contenuti per l'addestramento dell'IA, con disposizioni per l'attribuzione nelle risposte generate dall'IA.
Questo presenta le sue sfide. L'IA generativa è costosa da costruire e da gestire e ora le aziende di IA devono pagare per i dati piuttosto che estrarli semplicemente da Internet.