Les LLM s'améliorent lorsqu'ils assument des rôles masculins ou neutres du point de vue du genre

3 janvier 2024

Des chercheurs de l'université du Michigan ont constaté que le fait de demander à de grands modèles linguistiques (LLM) d'assumer des rôles masculins ou neutres en termes de genre suscitait de meilleures réponses que lorsqu'ils utilisaient des rôles féminins.

L'utilisation de messages-guides est très efficace pour améliorer les réponses que vous obtenez des MLD. Lorsque vous demandez à ChatGPT de se comporter comme un "assistant utile", il a tendance à se surpasser. Les chercheurs ont voulu découvrir quels rôles sociaux étaient les plus performants et leurs résultats ont mis en évidence des problèmes persistants de biais dans les modèles d'IA.

L'exécution de leurs expériences sur ChatGPT aurait été d'un coût prohibitif, c'est pourquoi ils ont utilisé les modèles open-source FLAN-T5, LLaMA 2et OPT-IML.

Pour déterminer les rôles les plus utiles, ils ont demandé aux modèles d'assumer différents rôles interpersonnels, de s'adresser à un public spécifique ou d'assumer différents rôles professionnels.

Par exemple, ils demanderont au modèle : "Vous êtes avocat", "Vous parlez à un père" ou "Vous parlez à votre petite amie".

Ils ont ensuite demandé aux modèles de répondre à 2 457 questions tirées de l'ensemble de données de référence Massive Multitask Language Understanding (MMLU) et ont enregistré la précision des réponses.

Les résultats globaux publiés dans le papier a montré que "la spécification d'un rôle lors d'une invite peut effectivement améliorer les performances des LLM d'au moins 20% par rapport à l'invite de contrôle, où aucun contexte n'est donné".

Lorsqu'ils ont segmenté les rôles en fonction du sexe, la partialité inhérente aux modèles est apparue au grand jour. Dans tous leurs tests, ils ont constaté que les rôles masculins ou neutres sur le plan du genre donnaient de meilleurs résultats que les rôles féminins.

Comparaison de la précision des réponses en fonction du sexe. Source : arXiv

Les chercheurs n'ont pas donné de raison concluante à cette disparité entre les sexes, mais cela pourrait suggérer que les biais dans les ensembles de données d'entraînement se révèlent dans les performances des modèles.

Certains des autres résultats obtenus ont soulevé autant de questions que de réponses. L'incitation par le biais d'un auditoire a donné de meilleurs résultats que l'incitation par le biais d'un rôle interpersonnel. En d'autres termes, "Vous parlez à un professeur" a donné des réponses plus précises que "Vous parlez à votre professeur".

Certains rôles ont mieux fonctionné dans FLAN-T5 que dans LLaMA 2. Le fait de demander à FLAN-T5 d'assumer le rôle de "policier" a donné d'excellents résultats, mais moins dans le cas de LLaMA 2. L'utilisation des rôles de "mentor" ou de "partenaire" a très bien fonctionné dans les deux cas.

Rôles sociaux les plus performants pour FLAN-T5 et LLaMA 2. Les options les plus performantes sont en rouge. Source : arXiv

Il est intéressant de noter que le rôle d'"assistant serviable" qui fonctionne si bien dans ChatGPT se situe quelque part entre 35 et 55 sur la liste des meilleurs rôles de leurs résultats.

Pourquoi ces différences subtiles ont-elles une incidence sur la précision des résultats ? Nous ne le savons pas vraiment, mais elles font une différence. La façon dont vous rédigez votre question et le contexte que vous fournissez influencent certainement les résultats que vous obtiendrez.

Espérons que des chercheurs disposant de crédits API pourront reproduire cette recherche en utilisant ChatGPT. Il sera intéressant d'obtenir la confirmation des rôles qui fonctionnent le mieux dans les messages-guides du système pour le GPT-4. Il y a fort à parier que les résultats seront faussés par le sexe, comme c'était le cas dans cette étude.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation