Les biais ont toujours été un problème dans l'IA, mais une nouvelle étude montre qu'ils sont secrètement intégrés dans les modèles de langage, avec des conséquences potentiellement catastrophiques.
Dans ce qui a déjà été annoncé comme une étude historique, une équipe de chercheurs, comprenant Valentin Hofman, Pratyusha Ria Kalluri, Dan Jurafsky et Sharese King, a documenté la façon dont les grands modèles de langage (LLM) discriminent l'anglais afro-américain (AAE).
En bref, l'étude teste la façon dont les différentes orthographes et dialectes affectent le comportement des LLM. Elle cherche à déterminer si certains dialectes et l'utilisation de certains mots influencent le comportement d'un LLM, en se concentrant sur les préjugés et la discrimination.
Nous savons que les résultats du LLM sont très sensibles à l'entrée. Même de petites déviations dans l'orthographe et le style peuvent influencer les résultats.
Mais cela signifie-t-il que certaines entrées - par exemple celles qui sont saisies dans l'AAE - produisent des sorties biaisées ? Dans l'affirmative, quelles sont les conséquences possibles ?
Pour répondre à ces questions, la chercheurs a analysé les préjugés d'un total de 12 LLM à l'égard de l'AAE, révélant des préjugés qui correspondent ou dépassent ceux typiquement humains. L'étude est disponible sur ArXiv.
Les chercheurs ont ensuite appliqué leurs conclusions à des domaines sociétaux tels que l'emploi et la justice pénale, où la prise de décision par l'IA est de plus en plus courante.
Hofmann a décrit la méthodologie de l'étude sur X : "Nous analysons les préjugés dialectaux dans les LLM en utilisant le Matched Guise Probing : nous intégrons des textes en anglais afro-américain et en anglais américain standardisé (SAE) dans des invites qui demandent les propriétés des locuteurs qui ont prononcé les textes, et nous comparons les prédictions du modèle pour les deux types d'entrée".
Nous analysons les préjugés dialectaux dans les LLM en utilisant le Matched Guise Probing : nous intégrons des textes en anglais afro-américain et en anglais américain standardisé dans des invites qui demandent les propriétés des locuteurs qui ont prononcé les textes, et nous comparons les prédictions du modèle pour les deux types d'entrée. pic.twitter.com/drTco67Ean
- Valentin Hofmann (@vjhofmann) 4 mars 2024
Cette méthode permet à l'équipe de comparer directement les réponses des LLM aux entrées AAE par rapport aux entrées SAE, démasquant ainsi les biais cachés qui, autrement, resteraient obscurs.
Les résultats de l'étude sont pour le moins troublants.
Hofmann note : "Nous constatons que les stéréotypes raciolinguistiques cachés sur les locuteurs de l'anglais afro-américain incarnés par les LLM sont plus négatifs que tous les stéréotypes humains sur les Afro-Américains jamais enregistrés expérimentalement, bien qu'ils soient plus proches de ceux d'avant le mouvement des droits civiques".
Nous constatons que les stéréotypes raciolinguistiques cachés sur les locuteurs de l'anglais afro-américain incarnés par les LLM sont plus négatifs que tous les stéréotypes humains sur les Afro-Américains jamais enregistrés expérimentalement, bien qu'ils soient plus proches de ceux d'avant le mouvement des droits civiques. pic.twitter.com/07LgUY2bCj
- Valentin Hofmann (@vjhofmann) 4 mars 2024
Cela suggère que les préjugés présents dans les LLM ne sont pas simplement le reflet de stéréotypes contemporains, mais qu'ils sont davantage liés à des préjugés que beaucoup pensaient que la société avait dépassés.
L'un des aspects les plus préoccupants de l'étude concerne les déclencheurs linguistiques spécifiques des préjugés.
Hofmann précise : "Qu'est-ce qui, dans les textes en anglais afro-américain, suscite des préjugés dialectaux chez les LLM ? Nous montrons que les stéréotypes cachés sont directement liés à des caractéristiques linguistiques individuelles de l'anglais afro-américain, telles que l'utilisation de 'finna' comme marqueur de futur."
Cela indique que le préjugé n'est pas seulement contre l'utilisation de l'AAE en général, mais qu'il est lié aux éléments linguistiques distincts qui caractérisent le dialecte.
Qu'est-ce qui, dans les textes en anglais afro-américain, évoque spécifiquement des préjugés dialectaux chez les LLM ? Nous montrons que les stéréotypes cachés sont directement liés à des caractéristiques linguistiques individuelles de l'anglais afro-américain, telles que l'utilisation de "finna" comme marqueur de futur. pic.twitter.com/JhPhX7ZE5U
- Valentin Hofmann (@vjhofmann) 4 mars 2024
Le risque de préjudice
Le potentiel de nuisance de ces préjugés est immense. Des études antérieures ont déjà démontré que les systèmes d'IA ont tendance à ne pas tenir compte des femmes, des personnes à la peau plus foncée et d'autres groupes marginalisés.
Avant ces dernières années, les systèmes d'IA risquaient d'être formés sur des ensembles de données non représentatifs. Certains, comme Tiny Images du MIT, créé en 2008, ont ensuite été retirés pour cause de sexisme et de racisme.
Une étude influente de 2018, Nuances de genrea analysé des centaines d'algorithmes de ML et a constaté que les taux d'erreur pour les femmes à la peau plus foncée étaient jusqu'à 34% plus élevés que pour les hommes à la peau plus claire.
Les conséquences sont frappantes, les modèles de soins de santé montrant des taux élevés d'erreurs de diagnostic du cancer de la peau chez les personnes ayant une couleur de peau plus foncée et chez les personnes ayant une couleur de peau plus foncée. modèles de police prédictive fondés sur des préjugés en ciblant de manière disproportionnée les personnes noires.
Nous avons déjà observé des preuves sans équivoque de l'existence de L'IA est de plus en plus utilisée dans le secteur publicLes systèmes d'intelligence artificielle sont de plus en plus utilisés dans les domaines de la criminalité, de la police, de la protection sociale et de l'économie. Il est absolument essentiel de s'attaquer aux biais fondamentaux dans les systèmes d'IA sophistiqués si l'on veut que cela continue.
Sur la base de cette recherche, l'équipe de M. Hofman a étudié l'impact des préjugés du LLM sur plusieurs scénarios hypothétiques.
Hofman a déclaré : "En nous concentrant sur les domaines de l'emploi et de la criminalité, nous constatons que le potentiel de nuisance est énorme".
Plus précisément, il a été constaté que les LLM attribuaient des emplois moins prestigieux et suggéraient des jugements pénaux plus sévères à l'encontre des locuteurs de l'AAE.
Premièrement, nos expériences montrent que les LLM attribuent des emplois nettement moins prestigieux aux locuteurs de l'anglais afro-américain qu'aux locuteurs de l'anglais américain standardisé, même s'ils ne sont pas ouvertement informés du fait que les locuteurs sont afro-américains. pic.twitter.com/t5frzzzwJB
- Valentin Hofmann (@vjhofmann) 4 mars 2024
Hofmann prévient : "Nos résultats mettent en évidence deux risques : que les utilisateurs prennent la diminution des niveaux de préjugés manifestes pour un signe que le racisme chez les LLM a été résolu, alors que les LLM atteignent en fait des niveaux croissants de préjugés cachés".
Deuxièmement, lorsqu'il est demandé aux LLM de juger des accusés ayant commis un meurtre, ils choisissent plus souvent la peine de mort lorsque les accusés parlent un anglais afro-américain plutôt qu'un anglais américain standardisé, là encore sans qu'on leur dise ouvertement qu'ils sont afro-américains. pic.twitter.com/8VBaCXfNEi
- Valentin Hofmann (@vjhofmann) 4 mars 2024
L'étude montre également que l'élimination de ces problèmes est un défi technique.
Les auteurs écrivent : "Nous montrons que les méthodes existantes pour atténuer les préjugés raciaux dans les modèles de langage, telles que la formation à la rétroaction humaine, n'atténuent pas les préjugés dialectaux, mais peuvent exacerber l'écart entre les stéréotypes cachés et manifestes, en apprenant aux modèles de langage à dissimuler superficiellement le racisme qu'ils entretiennent à un niveau plus profond".
On peut penser que ces biais s'appliquent à d'autres dialectes ou variations culturelles et linguistiques. Des recherches supplémentaires sont nécessaires pour comprendre comment les performances de l'apprentissage tout au long de la vie varient en fonction des apports linguistiques, des modèles d'utilisation culturelle, etc.
L'étude se conclut par un appel à l'action pour la communauté des chercheurs en IA et la société dans son ensemble. Il est primordial de s'attaquer à ces préjugés à mesure que les systèmes d'IA s'intègrent de plus en plus dans la société.
Toutefois, à ce jour, la partialité inhérente et systématiquement intégrée de certains systèmes d'intelligence artificielle demeure. un problème que les développeurs sont prêts à ignorer dans leur course à la suprématie de l'IA.