Le PDG de YouTube met en garde OpenAI contre une violation potentielle des conditions d'utilisation

5 avril 2024

  • Neal Mohan, PDG de YouTube, a évoqué les violations potentielles des conditions d'utilisation de l'OpenAI.
  • Si Sora avait été formé sur les vidéos de YouTube, il s'agirait d'une "violation manifeste
  • Sora est un modèle sophistiqué de conversion de texte en vidéo conçu par OpenAI, qui est encore en phase de test.
OpenAI YouTube

Le PDG de YouTube, Neal Mohan, a déclaré que l'utilisation potentielle par OpenAI de vidéos YouTube pour entraîner le modèle de conversion de texte en vidéo Sora constituerait une violation de ses conditions d'utilisation. 

M. Mohan a déclaré à Bloomberg : "Si Sora utilisait du contenu provenant de YouTube, il s'agirait d'une "violation claire" de ses conditions d'utilisation".

Il n'y aura pas d'amour perdu entre YouTube et OpenAI, chacun se situant d'un côté ou de l'autre du fossé qui sépare les grandes entreprises technologiques. 

Sora est le nouveau modèle révolutionnaire de conversion de texte en vidéo d'OpenAI, qui est encore en cours de test. Il marque la conquête par l'IA générative de toutes les formes de médias, en commençant par le texte, puis les images, et maintenant l'audio et la vidéo. 

La vidéo et l'audio génératifs s'accompagnent d'un nouvel ensemble de risques que les entreprises d'IA doivent négocier, comme le fait que leurs modèles produisent des répliques quasi exactes de documents protégés par le droit d'auteur. 

Nous l'avons déjà constaté avec le modèle de conversion de texte en audio Suno, qui produit des résultats très similaires. audio vers des chansons célèbres comme "Bohemian Rhapsody" de Queen et "Dancing Queen" d'ABBA. 

Ni l'OpenAI ni la plupart des entreprises d'IA n'ont fait preuve d'une grande transparence quant à leur dépendance à l'égard de vastes quantités de données provenant de l'internet, y compris des documents protégés par le droit d'auteur, pour former des modèles. 

OpenAI a même reconnu qu'il était difficile d'éviter les données protégées par le droit d'auteur dans ses processus de développement. Chambre des Lords britannique qu'il était "impossible" de construire la technologie sans elle". 

Il s'agit en quelque sorte d'un lapsus freudien qui révèle une vérité gênante sur les données d'entraînement de l'IA.

Cependant, bien que l'OpenAI ait déclaré que les données relatives aux droits d'auteur sont sans équivoque vitales pour l'IA générative, aucune infraction n'a encore été prouvée devant un tribunal, ce qui montre que la loi sur les droits d'auteur dans son incarnation actuelle n'a tout simplement pas été conçue pour l'époque actuelle. 

En ce qui concerne l'entraînement de Sora, Mira Murati, directeur technique d'OpenAI, a déclaré dans une interview au Wall Street Journal qu'il ne savait apparemment pas quel contenu avait été utilisé pour entraîner Sora, et notamment s'il s'agissait d'un contenu de YouTube. 

Interrogé sur les sources du contenu de la formation de Sora, M. Murati a répondu : "Je n'en suis pas sûr", ajoutant que toutes les données utilisées étaient soit "accessibles au public, soit sous licence".

Ce n'est pas un rapport brillant de transparence pour OpenAI, qui se prépare à publier son nouveau modèle révolutionnaire - un modèle qu'il utilise déjà pour appel d'offres à Hollywood pour ses applications potentielles dans le domaine du cinéma et de la télévision. 

Sora a déjà poussé le producteur Tyler Perry à mettre en pause un $800 millions d'euros pour l'agrandissement des studiosCe qui laisse présager des bouleversements potentiellement importants pour les industries créatives à l'avenir. 

Le PDG de YouTube parle de Sora

Le PDG de YouTube, M. Mohan, a montré qu'il était conscient des discussions en cours sur les pratiques d'entraînement de l'IA. Il a laissé entendre que l'OpenAI devait clarifier l'utilisation des données de YouTube. 

Il a dit BloombergDu point de vue des créateurs, lorsqu'ils téléchargent leur travail sur notre plateforme, ils ont certaines attentes. L'une de ces attentes est que les conditions de service soient respectées. Il n'est pas possible de télécharger des éléments tels que des transcriptions ou des morceaux de vidéo, ce qui constitue une violation flagrante de nos conditions d'utilisation. Ce sont les règles du jeu en termes de contenu sur notre plateforme".

Les conditions d'utilisation de YouTube interdisent explicitement le scraping ou le téléchargement non autorisé du contenu de YouTube, une politique confirmée par un porte-parole de YouTube à la lumière des commentaires de M. Mohan.

Alphabet, la société mère de YouTube, s'efforce de développer ses propres outils d'intelligence artificielle. On peut s'attendre à des réactions négatives si OpenAI utilise directement ou indirectement des vidéos YouTube pour entraîner Sora. 

La ruée vers l'or des données d'IA a donné lieu à des partenariats stratégiques et à des accords de licence entre les entreprises technologiques et les fournisseurs de contenu. De nombreux poursuites judiciaires sont toujours en cours dans les domaines de la génération de textes et d'images, mais elles restent peu concluantes. 

Premièrement, même lorsque les modèles d'IA s'exposent en reproduisant des œuvres protégées par le droit d'auteur (comme MidJourney cracher des images des films Marvel ou des Simpsons), leur nature de boîte noire fait qu'il est pratiquement impossible de déterminer où ces données ont été extraites et à quel moment précis l'infraction a eu lieu. 

Deuxièmement, si les sons, images, vidéos, etc. générés par l'IA peuvent constituer une preuve solide d'infraction, ce n'est pas aussi évident que si vous ou moi copiions une image de Mickey Mouse et la vendions à des millions d'exemplaires sans autorisation. 

En réponse à ces pressions juridiques, les entreprises d'IA commencent à traiter des données précieuses. 

Par exemple, $60 millions d'euros par an pour Reddit L'accord de licence conclu avec Google pour la formation aux outils d'intelligence artificielle illustre les accords formels qui se dessinent dans le secteur. 

De même, des organisations médiatiques telles que l'Associated Press et Axel Springer ont conclu des accords autoriser l'utilisation de leur contenu pour la formation à l'IA, en prévoyant l'attribution des réponses générées par l'IA.

Cela pose ses propres problèmes. L'IA générative est coûteuse à mettre en place et à faire fonctionner, et maintenant, les entreprises d'IA doivent payer pour les données plutôt que de simplement les extraire de l'internet. 

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation