El consejero delegado de YouTube, Neal Mohan, afirmó que el posible uso de vídeos de YouTube por parte de OpenAI para entrenar el modelo Sora de conversión de texto en vídeo infringiría sus condiciones de servicio.
Mohan declaró a Bloomberg: "Si Sora utilizara contenidos de YouTube sería una "clara violación" de sus condiciones de servicio."
No habrá amor perdido entre YouTube y OpenAI, ya que cada uno se sitúa en un lado diferente de la división de las grandes empresas tecnológicas.
Sora es el nuevo y revolucionario modelo de conversión de texto a vídeo de OpenAI, que aún se está probando. Supone la conquista de todos los medios por parte de la IA generativa, empezando por el texto, luego las imágenes y ahora el audio y el vídeo.
El vídeo y el audio generativos conllevan una nueva serie de riesgos que las empresas de IA deben negociar, como que sus modelos produzcan réplicas casi exactas de material protegido por derechos de autor.
Ya lo hemos comprobado con el modelo de conversión de texto a audio Suno, que produce unos resultados muy similares audio de canciones famosas como "Bohemian Rhapsody" de Queen y "Dancing Queen" de ABBA.
Ni OpenAI ni la mayoría de las empresas de IA han sido especialmente transparentes sobre su dependencia de grandes cantidades de datos procedentes de Internet, incluido material protegido por derechos de autor, para entrenar modelos.
OpenAI incluso reconoció los retos que supone evitar los datos protegidos por derechos de autor en sus procesos de desarrollo, declarando en una presentación a la Cámara de los Lores británica que "era "imposible" construir la tecnología sin él".
Fue una especie de lapsus freudiano que puso de manifiesto una verdad incómoda sobre los datos de entrenamiento de la IA.
Sin embargo, a pesar de que OpenAI afirma que los datos sobre derechos de autor son inequívocamente vitales para la IA generativa, la infracción aún no se ha demostrado ante un tribunal, lo que refleja cómo la ley de derechos de autor en su encarnación actual simplemente no nació para esta época.
En una entrevista concedida al Wall Street Journal, Mira Murati, CTO de OpenAI, parece desconocer qué contenido se utilizó para entrenar a Sora, incluido si se trataba de contenido de YouTube.
Murati respondió: "En realidad, no estoy seguro de eso", cuando se le preguntó por las fuentes de contenido para el entrenamiento de Sora, y añadió que cualquier dato utilizado estaba "disponible públicamente o bajo licencia".
No es un informe brillante de transparencia para OpenAI mientras se preparan para lanzar su nuevo modelo innovador - uno que ya están utilizando para licitación de negocios en Hollywood por sus posibles aplicaciones en el cine y la televisión.
Sora ya provocó que el productor Tyler Perry pusiera en pausa una $800 millones para ampliar el estudiolo que podría suponer un gran trastorno para las industrias creativas.
El Director General de YouTube habla de Sora
Mohan, CEO de YouTube, se mostró consciente de los debates en curso sobre las prácticas de entrenamiento de la IA. Insinuó la necesidad de OpenAI de aclarar el uso de los datos de YouTube.
Dijo BloombergDesde la perspectiva de un creador, cuando un creador sube su trabajo a nuestra plataforma, tiene ciertas expectativas. Una de ellas es que se respeten las condiciones del servicio. No permite que se descarguen cosas como transcripciones o fragmentos de vídeo, y eso es una clara violación de nuestras condiciones de servicio. Esas son las reglas del juego en cuanto a contenidos en nuestra plataforma".
Las condiciones de servicio de YouTube "prohíben explícitamente el scraping o la descarga no autorizada de contenidos de YouTube", una política confirmada por un portavoz de YouTube a la luz de los comentarios de Mohan.
Alphabet, la empresa matriz de YouTube, está desarrollando sus propias herramientas de IA. Cabe esperar reacciones negativas si OpenAI utilizó directa o indirectamente vídeos de YouTube para entrenar a Sora.
La fiebre del oro de los datos de IA ha dado lugar a asociaciones estratégicas y acuerdos de licencia entre empresas tecnológicas y proveedores de contenidos. Numerosos sitios demandas en los ámbitos de la generación de textos e imágenes, pero siguen siendo poco concluyentes.
En primer lugar, incluso cuando los modelos de IA se exponen reproduciendo obras protegidas por derechos de autor (como MidJourney escupiendo imágenes de las películas de Marvel o de los Simpson), su naturaleza de caja negra hace casi imposible determinar dónde se recuperaron estos datos y cuándo se produjo exactamente la infracción.
En segundo lugar, si bien el audio, las imágenes, los vídeos, etc. generados por IA podrían ilustrar una prueba sólida de infracción, no es tan claro como que usted o yo copiemos una imagen de Mickey Mouse y la vendamos por millones sin permiso.
En respuesta a estas presiones legales, las empresas de IA están empezando a negociar con datos valiosos.
Por ejemplo, $60 millones al año de Reddit El acuerdo de licencia con Google para la formación de herramientas de IA ejemplifica los acuerdos formales que están surgiendo en el sector.
Asimismo, medios de comunicación como The Associated Press y Axel Springer han celebrado acuerdos permitir que sus contenidos se utilicen para el entrenamiento de la IA, con disposiciones para la atribución en las respuestas generadas por la IA.
Esto plantea sus propios retos. La IA generativa es costosa de construir y ejecutar, y ahora las empresas de IA deben pagar por los datos en lugar de simplemente extraerlos de Internet.