Une nouvelle étude tente d'aligner l'IA sur les valeurs humaines recueillies par la foule

1er avril 2024

  • Des chercheurs ont mis au point une méthode pour dériver les valeurs de l'IA à partir de participants humains
  • Cela a permis de créer un système d'IA solidement équitable et transparent qui a servi les personnes ayant des points de vue différents
  • Les chercheurs affirment que leur approche va à l'encontre des tentatives précédentes visant à aligner l'IA sur les valeurs humaines.
Valeurs de l'IA

Des chercheurs du Meaning Alignment Institute ont proposé une nouvelle approche, Moral Graph Elicitation (MGE), pour aligner les systèmes d'IA sur les valeurs humaines.

À mesure que l'IA se perfectionne et s'intègre dans notre vie quotidienne, il est primordial de veiller à ce qu'elle serve et représente tout le monde de manière équitable. Cependant, l'IAson étude affirme que l'alignement de l'IA sur les objectifs de l'utilisateur ne suffit pas à garantir la sécurité.

 "Les systèmes d'IA seront déployés dans des contextes où l'adhésion aveugle à l'intention de l'opérateur peut causer des dommages en tant que sous-produit. Cela est particulièrement évident dans les environnements où la dynamique de la concurrence est forte, comme les campagnes politiques ou la gestion d'actifs financiers", affirment les chercheurs. 

En effet, les modèles d'IA sont conçus pour servir l'utilisateur. Si l'utilisateur donne des instructions à un modèle à des fins malveillantes, la volonté du modèle de servir l'utilisateur peut l'amener à contourner les garde-fous et à obéir.

Une solution consiste à "imprégner" l'IA d'une série de valeurs qu'elle consulte à chaque fois qu'elle est sollicitée.

La question est de savoir d'où viennent ces valeurs. Et peuvent-elles représenter les citoyens de manière équitable ?

Pour résoudre ces problèmes, les chercheurs ont proposé d'aligner l'IA sur une représentation plus profonde des valeurs humaines par le biais du MGE.

La méthode MGE comporte deux éléments clés : les cartes de valeurs et le graphique moral.

Ceux-ci constituent une cible d'alignement pour l'entraînement des modèles d'apprentissage automatique.

  • Cartes de valeurs Les politiques attentionnelles constitutives permettent de saisir ce qui est important pour une personne dans une situation donnée. Elles consistent en des "politiques attentionnelles constitutives" (CAP), qui sont les éléments auxquels une personne prête attention lorsqu'elle fait un choix significatif. Par exemple, lorsqu'on conseille un ami, on peut s'attacher à comprendre ses émotions, à lui suggérer des ressources utiles ou à envisager les résultats potentiels de différents choix.
  • Le graphe moral représente visuellement les relations entre les cartes de valeurs, en indiquant quelles valeurs sont les plus perspicaces ou les plus applicables dans un contexte donné. Pour construire le graphique moral, les participants comparent différentes cartes de valeurs, en discernant celles qui, selon eux, offrent des conseils plus avisés pour une situation spécifique. Cela permet d'exploiter la sagesse collective des participants pour identifier les valeurs les plus fortes et les plus largement reconnues dans chaque contexte.

Pour tester la méthode MGE, les chercheurs ont mené une étude auprès de 500 Américains qui ont utilisé le processus pour explorer trois sujets controversés : l'avortement, la parentalité et les armes utilisées lors de l'émeute du 6 janvier au Capitole.

Les résultats ont été prometteurs : 89,1% des participants se sont sentis bien représentés par le processus et 89% ont estimé que le graphique moral final était juste, même si leur valeur n'avait pas été élue comme la plus sage.

L'étude souligne également six critères qu'une cible d'alignement doit posséder pour façonner le comportement du modèle en fonction des valeurs humaines : elle doit être fine, généralisable, évolutive, robuste, légitime et vérifiable. Les chercheurs affirment que le graphe moral produit par MGE répond bien à ces critères.

Cette étude propose une approche similaire à celle d'Anthropic. Collectif Constitiutal AI, qui propose également des valeurs de crowdsourcing pour l'alignement de l'IA.

Cependant, l'auteur de l'étude, Joe Edelman, a déclaré sur X : "Notre approche, MGE, surpasse des alternatives comme le CCAI par @anthropic sur la légitimité dans une étude de cas, et offre une robustesse face à la rhétorique idéologique. 89% reconnaissent même que les valeurs gagnantes étaient justes, même si leur propre valeur n'a pas gagné !"

Limites

Les approches d'alignement de l'IA qui s'appuient sur les valeurs du public ont leurs limites.

Par exemple, les opinions dissidentes font partie intégrante du processus décisionnel de la société depuis des siècles, et l'histoire a montré que la majorité peut souvent adopter les points de vue divergents de la minorité. La théorie de l'évolution de Darwin et les luttes pour l'abolition de l'esclavage et le droit de vote des femmes en sont des exemples.

En outre, si la participation directe du public est démocratique, elle peut conduire au populisme, la majorité pouvant passer outre les opinions minoritaires ou ignorer l'avis des experts.

Un autre défi consiste à trouver un équilibre entre les valeurs culturelles globales ou universalistes et les valeurs culturelles locales ou relativistes. Des principes largement acceptés dans une culture ou une région peuvent être controversés dans une autre.

Les constitutions de l'IA pourraient renforcer les valeurs occidentales, ce qui risquerait d'éroder les opinions et les idées de ceux qui se trouvent à la périphérie.

Bien que cette nouvelle étude reconnaisse les limites et la nécessité de poursuivre le développement, elle fournit une autre stratégie pour créer des systèmes d'IA qui s'alignent sur les valeurs humaines.

Chaque tentative compte si l'on veut que l'IA centralisée serve équitablement tout le monde à l'avenir. 

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation