Dans leur quête effrénée de données d'entraînement à l'IA, les géants de la technologie OpenAI, Google et Meta auraient contourné les politiques de l'entreprise, modifié leurs règles et discuté du contournement de la législation sur le droit d'auteur.
A Enquête du New York Times révèle tout ce que ces entreprises ont fait pour collecter des informations en ligne afin d'alimenter leurs systèmes d'IA avides de données.
Fin 2021, les chercheurs de l'OpenAI ont mis au point un outil de reconnaissance vocale appelé Whisper pour transcrire les vidéos YouTube lorsqu'ils sont confrontés à une pénurie de données textuelles fiables en anglais.
Malgré des discussions internes sur la possibilité d'enfreindre les règles de YouTube, qui interdisent l'utilisation de ses vidéos pour des applications "indépendantes",
Le NYT a découvert qu'OpenAI avait finalement transcrit plus d'un million d'heures de contenu YouTube. Greg Brockman, président d'OpenAI, a personnellement participé à la collecte des vidéos. Le texte transcrit a ensuite été introduit dans le GPT-4.
Google aurait également transcrit des vidéos YouTube afin de récolter du texte pour ses modèles d'IA, violant ainsi potentiellement les droits d'auteur des créateurs de vidéos.
Cette décision intervient quelques jours après que le PDG de YouTube a déclaré qu'une telle activité constituerait une violation de la loi sur les droits de l'homme. conditions de service de l'entreprise et de saper les créateurs.
En juin 2023, le service juridique de Google a demandé que des modifications soient apportées à la politique de confidentialité de l'entreprise, afin d'autoriser l'accès au contenu de Google Docs et d'autres applications Google pour un plus grand nombre de produits d'intelligence artificielle.
Meta, confronté à sa propre pénurie de données, a envisagé diverses options pour acquérir davantage de données de formation.
Les dirigeants ont évoqué le paiement des droits de licence des livres, l'achat de la maison d'édition Simon & Schuster, et même la collecte de matériel protégé par le droit d'auteur sur l'internet sans autorisation, au risque d'éventuelles poursuites judiciaires.
Les avocats de Meta ont fait valoir que l'utilisation de données pour former des systèmes d'intelligence artificielle relevait de l'"usage loyal", citant une décision de justice de 2015 concernant le projet de numérisation de livres de Google.
Préoccupations éthiques et avenir des données d'entraînement à l'IA
Les actions collectives de ces entreprises technologiques soulignent l'importance cruciale des données en ligne dans le secteur en plein essor de l'IA.
Ces pratiques ont suscité des inquiétudes quant à la violation des droits d'auteur et à la juste rémunération des créateurs.
Justine Bateman, réalisatrice et auteure, a déclaré à l'Office du droit d'auteur que des modèles d'IA s'emparaient de contenus, notamment de ses écrits et de ses films, sans autorisation ni paiement.
"Il s'agit du plus grand vol aux États-Unis, point final", a-t-elle déclaré lors d'une interview.
Dans le domaine des arts visuels, MidJourney et d'autres modèles d'images ont été utilisés pour la création d'images. qui a fait ses preuves pour générer des droits d'auteur comme des scènes de films Marvel.
Certains experts prévoyant que les données en ligne de haute qualité pourraient être épuisées d'ici 2026, les entreprises explorent des méthodes alternatives, telles que la génération de données synthétiques à l'aide de modèles d'IA. Cependant, les données d'entraînement synthétiques comportent leurs propres risques et défis et peuvent avoir un effet négatif sur la qualité de l'enseignement. avoir un impact sur la qualité des modèles.
Le PDG d'OpenAI, Sam Altman, a lui-même reconnu la nature limitée des données en ligne lors d'un discours prononcé à l'occasion d'une conférence technologique en mai 2023 : "Cela va s'épuiser", a-t-il déclaré.
Sy Damle, avocat représentant Andreessen Horowitz, une société de capital-risque de la Silicon Valley, a également évoqué le défi : "La seule façon pratique pour ces outils d'exister est de pouvoir être formés sur des quantités massives de données sans avoir à accorder de licence pour ces données. Les données nécessaires sont si nombreuses que même l'octroi de licences collectives ne peut pas fonctionner.
Le NYT et OpenAI s'affrontent dans un bras de fer procès amer sur les droits d'auteurLe Times a demandé des millions de dollars de dommages et intérêts.
OpenAI a répliqué en accusant le Times de piratage" de leurs modèles pour trouver des exemples de violation du droit d'auteur.
Par "piratage", ils entendent "jailbreaking" ou "red-teaming", qui consiste à cibler le modèle à l'aide d'invites spécialement formulées dans le but de le casser pour manipuler les résultats.
Le NYT a déclaré qu'ils n'auraient pas à recourir à des modèles jailbreaking si les entreprises d'IA étaient transparentes quant aux données qu'elles ont utilisées.
Il ne fait aucun doute que l'enquête interne a contribué à rendre le vol de données de Big Tech inacceptable d'un point de vue éthique et juridique.
Les poursuites judiciaires s'accumulent, le paysage juridique entourant l'utilisation de données en ligne pour la formation à l'IA est extrêmement précaire.