De nouvelles recherches sur les ensembles de données révèlent des problèmes éthiques et juridiques systémiques

26 octobre 2023

L'IA s'articule autour des données, mais d'où viennent-elles ? Les ensembles de données sont-ils légaux et éthiques ? Comment les développeurs peuvent-ils s'en assurer ? 

La formation de modèles d'apprentissage automatique tels que les grands modèles de langage (LLM) nécessite de grands volumes de données textuelles. 

Des piles de données sont disponibles sur des plateformes telles que Kaggle, GitHub et Hugging Face, mais elles existent dans une zone d'ombre juridique et éthique, principalement en raison des questions de licence et d'utilisation équitable. 

Les Initiative sur la provenance des donnéesun effort de collaboration entre des chercheurs en IA et des professionnels du droit, a examiné des milliers d'ensembles de données afin de faire la lumière sur leurs véritables origines.

Il s'est concentrée sur plus de 1 800 ensembles de données disponibles sur des plateformes telles que Hugging Face, GitHub et Papers With Code. Les ensembles de données sont principalement conçus pour affiner les modèles à source ouverte tels que Llama-2. 

L'étude a révélé qu'environ 70% de ces ensembles de données ne contenaient pas d'informations claires sur les licences ou étaient marquées par des licences trop permissives. 

En raison d'un manque flagrant de clarté concernant les restrictions en matière de droits d'auteur et d'utilisation commerciale, les développeurs d'IA risquent d'enfreindre accidentellement la loi ou de violer les droits d'auteur.

Shayne Longpre, doctorant au MIT Media Lab qui a dirigé l'audit, a souligné que le problème n'est pas imputable aux plateformes d'hébergement, mais qu'il s'agit plutôt d'un problème systémique au sein de la communauté de l'apprentissage automatique.

L'année 2023 a été marquée par une déluge de poursuites judiciaires ciblant les principaux développeurs d'IA tels que Meta, Anthropic et OpenAI, qui sont soumis à une pression extrême pour adopter des pratiques plus transparentes en matière de collecte de données. Les réglementations, telles que la Loi sur l'IA de l'UEsont prêts à mettre en œuvre précisément cela. 

L'initiative sur la provenance des données permet aux développeurs d'apprentissage automatique de explorer les ensembles de données auditées ici. L'initiative analyse également les tendances au sein des ensembles de données, en mettant en lumière leurs origines géographiques et institutionnelles. 

La plupart des ensembles de données sont construits dans le Nord anglophone, ce qui met en évidence les déséquilibres socioculturels. 

Provenance des données IA
L'initiative sur la provenance des données a révélé que les ensembles de données représentent principalement les pays anglophones et le Nord global. Source : Données Provenance.org.

En savoir plus sur l'étude

Cette analyse à grande échelle des ensembles de données a mis en évidence des problèmes systématiques liés à la manière dont les données sont collectées et distribuées. L'initiative a également produit un document expliquant ses conclusions, publié ici.

Voici plus d'informations sur les méthodes et les résultats de l'étude :

  1. Analyse des ensembles de données pour déterminer l'origine et l'étiquetage: Cette étude a systématiquement vérifié plus de 1800 ensembles de données de réglage fin afin d'examiner minutieusement la provenance des données, les licences et la documentation. 
  2. Preuves d'erreur d'étiquetage: Les résultats ont mis en évidence l'écart entre les types de données disponibles sous différentes licences et les implications pour les interprétations juridiques du droit d'auteur et de l'utilisation équitable. L'étude a mis en évidence un taux élevé de catégorisation erronée des licences, avec plus de 72% d'ensembles de données ne spécifiant pas de licence et un taux d'erreur de 50% dans ceux qui en spécifient une.
  3. Provenance des données non fiable: La recherche attire l'attention sur la question du manque de fiabilité de la provenance des données, en soulignant la nécessité d'établir des normes pour retracer l'origine des données, garantir une attribution correcte et encourager une utilisation responsable des données. 
  4. Répartition géographique : L'étude met en évidence un grave manque de représentation et d'attribution pour les ensembles de données provenant du Sud global. La plupart des ensembles de données tournent autour de la langue anglaise et sont culturellement liés à l'Europe, à l'Amérique du Nord et à l'Océanie anglophone. 

Cette étude met en évidence des problèmes systémiques et structurels dans la manière dont les données sont créées, distribuées et utilisées. Les données sont une ressource essentielle pour l'IA et, à l'instar des ressources naturelles, elles sont limitées. 

On craint que la technologie de l'IA ne finisse par dépasser les ensembles de données actuels, voire qu'elle ne devienne une menace pour la santé publique. commence à consommer sa propre productionCela signifie que les modèles d'IA apprendront à partir de textes générés par l'IA. 

Cela pourrait éroder la qualité des modèles, ce qui signifie que des données de haute qualité, éthiques et légales pourraient devenir très précieuses.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation