Dans leur course effrénée pour dominer le secteur de l'IA, les géants de la technologie repoussent les limites de l'éthique et de la confiance du public.
Une série de révélations récentes tire la sonnette d'alarme en ce qui concerne la confidentialité des données, la concurrence loyale et la concentration du pouvoir et des talents.
Tout d'abord, un enquête menée par Proof News et WIRED a découvert qu'Apple, NVIDIA, Anthropic et Salesforce ont utilisé un ensemble de données contenant les sous-titres de plus de 170 000 vidéos YouTube pour entraîner leurs modèles d'IA.
Cet ensemble de données, connu sous le nom de "YouTube Subtitles", a été compilé sans le consentement des créateurs de contenu, ce qui constitue une violation potentielle des conditions d'utilisation de YouTube.
L'ampleur de cette opération d'extraction de données est stupéfiante. Elle inclut le contenu d'établissements d'enseignement comme Harvard, de YouTubers populaires comme MrBeast et PewDiePie, et même de grands organes d'information comme le Wall Street Journal et la BBC.
L'enquête révèle qu'un ensemble de données utilisé pour la formation à l'IA générique par Apple & d'autres contiennent des transcriptions de YouTube protégées par des droits d'auteur et consultées sans autorisation. Plus d'informations :
- L'ensemble de données Pile contient des transcriptions de 170 000 vidéos YouTube.
- Utilisé par Apple, AnthropicNvidia, Salesforce et plus encore... pic.twitter.com/RE0UjhumA3- Ed Newton-Rex (@ednewtonrex) 16 juillet 2024
YouTube n'a pas encore réagi, mais en avril, le PDG Neal Mohan a déclaré que l'utilisation potentielle de vidéos par OpenAI pour entraîner le modèle de conversion de texte en vidéo Sora violerait ses conditions d'utilisationSi Sora utilisait du contenu provenant de YouTube, il s'agirait d'une "violation manifeste" de ses conditions d'utilisation", a-t-il déclaré à Bloomberg.
OpenAI ne figure pas parmi les accusés à cette occasion, et nous ne savons pas si YouTube tentera de prendre des mesures si les nouvelles allégations s'avèrent véridiques.
Ce n'est pas la première fois, loin s'en faut, que des entreprises technologiques sont prises dans le collimateur pour leurs pratiques d'utilisation des données.
En 2018, Facebook a fait l'objet d'un examen approfondi à la suite du scandale Cambridge Analytica, où les données de millions d'utilisateurs ont été récoltées sans consentement à des fins de publicité politique.
Plus pertinent pour l'IA, en 2023, il a été découvert qu'un ensemble de données appelé Books3qui contient plus de 180 000 livres protégés par des droits d'auteur, a été utilisé pour entraîner des modèles d'intelligence artificielle sans l'autorisation des auteurs. Cette affaire a donné lieu à une vague de poursuites judiciaires contre les entreprises spécialisées dans l'IA, les auteurs invoquant une violation des droits d'auteur.
Ce n'est là qu'un exemple parmi une pile toujours croissante de poursuites judiciaires émanant de tous les coins des industries créatives. Universal Music Group, Sony Music et Warner Records sont parmi les entités les plus prolifiques qui ont ajouté de l'argent à leur budget. leurs noms sur la liste après s'être associés pour cibler les sociétés d'IA text-to-audio Udio et Suno.
Dans leur empressement à construire des modèles d'IA plus avancés, il semble que les entreprises technologiques aient adopté une approche de l'acquisition des données qui consiste à "demander le pardon, pas la permission".
La fusion Microsoft-Inflection
Alors que le scandale YouTube se poursuit, la récente embauche par Microsoft de la startup Inflection, spécialisée dans l'intelligence artificielle, a attiré l'attention des autorités de régulation britanniques.
L'autorité de la concurrence et des marchés (CMA) a lancé une première phase d'enquête sur les fusions, afin de déterminer si cette embauche massive constitue une fusion de fait susceptible d'étouffer la concurrence dans le secteur de l'IA.
Ce geste incisif de la part de Microsoft comprenait l'acquisition de Mustafa Suleyman, cofondateur d'Inflection (un ancien cadre de Google DeepMind) et une grande partie du personnel de la startup.
Inflection se présentait autrefois comme un laboratoire d'intelligence artificielle indépendant et fier de l'être. Il a ensuite prouvé qu'il s'agissait d'une race en voie de disparition.
Elle prend encore plus de poids si l'on considère les partenariats existants de Microsoft dans le domaine de l'IA. L'entreprise a déjà investi un total d'environ $13 milliards dans OpenAI, ce qui soulève des questions sur la concentration du marché.
Pour corser l'affaire, Microsoft a récemment renoncé à sa siège sans droit de vote au OpenAI. Les experts estiment que cette décision résulte probablement d'une volonté d'assouplir la surveillance de l'entreprise pour apaiser les autorités antitrust.
Alex Haffner, partenaire en matière de concurrence au sein du cabinet d'avocats Fladgate, a déclaré à propos de la décision surprise de MicrosoftIl est difficile de ne pas conclure que la décision de Microsoft a été fortement influencée par l'examen antitrust de son influence (et de celle d'autres grands acteurs de la technologie) sur les acteurs émergents de l'IA tels que OpenAI.
Un déficit de confiance ?
Le scandale de l'exploitation des données de YouTube et les pratiques d'embauche de Microsoft contribuent tous deux à l'émergence d'un sentiment d'impuissance. un déficit de confiance croissant entre les grandes entreprises technologiques et le public.
L'impact immédiat est que les créateurs de contenu sont devenus plus prudents à propos de leur travail, par crainte d'être exploités.
Cela pourrait avoir un effet d'entraînement sur la création et le partage de contenu et, en fin de compte, appauvrir les plateformes sur lesquelles les entreprises technologiques s'appuient pour obtenir des données.
De même, la concentration des talents en matière d'IA dans quelques grandes entreprises homogénéise le développement de l'IA et limite la diversité.
Pour les entreprises technologiques, le rétablissement de la confiance nécessitera probablement plus que le simple respect des réglementations futures et des enquêtes antitrust.
Des questions subsistent : pouvons-nous exploiter le véritable potentiel de l'IA tout en préservant l'éthique, la concurrence loyale et la confiance du public ?