Des entreprises comme OpenAI et Meta travaillent d'arrache-pied pour rendre leurs modèles de langage plus sûrs et moins biaisés, mais des modèles totalement impartiaux ne sont pas encore envisageables.
A nouveau document de recherche de l'université de Washington, de l'université Carnegie Mellon et de l'université Xi'an Jiaotong ont conclu que tous les modèles linguistiques d'IA qu'ils ont testés présentaient des préjugés politiques.
Après avoir examiné les sources du biais, ils ont conclu que le biais dans les modèles linguistiques était inévitable.
Chan Park, l'un des auteurs de l'article, a déclaré : "Nous pensons qu'aucun modèle linguistique ne peut être totalement exempt de préjugés politiques".
Les chercheurs ont testé 14 modèles linguistiques différents et leur ont demandé de donner leur avis sur des sujets tels que la démocratie, le racisme et le féminisme, afin de voir de quel côté de l'échiquier politique les modèles se situaient.
Les résultats ont montré que ChatGPT et GPT-4 d'OpenAI étaient les plus à gauche, tandis que Llama de Meta donnait les réponses les plus à droite.
Les données de formation ne sont pas la seule source de biais
La source évidente de biais sont les données sur lesquelles ces modèles sont entraînés. Mais la nouvelle recherche a montré que même après avoir éliminé les biais des données, les modèles étaient sensibles à des biais de faible niveau qui subsistaient dans les données.
On pourrait s'attendre à ce qu'un LLM formé à partir d'un ensemble de données de Fox News soit plus pro-républicain dans ses réponses. Mais le problème ne réside pas seulement dans les données d'entraînement.
Il s'avère qu'au fur et à mesure que les modèles linguistiques pré-entraînés sont affinés et utilisés, ils absorbent des biais supplémentaires de la part de leurs opérateurs.
Soroush Vosoughi, professeur adjoint d'informatique au Dartmouth College, explique que les préjugés sont introduits à presque toutes les étapes du développement d'un LLM.
La manière dont OpenAI tente d'éliminer les biais de ses modèles en est un exemple. Elle utilise une technique appelée "Reinforcement Learning through Human Feedback" ou RLHF pour former ses modèles.
En RLHF, un opérateur humain entraîne le modèle de la même manière qu'on entraîne un chiot. Si le chiot fait quelque chose de bien, il reçoit une friandise. S'il mâche vos pantoufles, "Mauvais chien !".
Un opérateur RLHF pose des questions au modèle et un autre opérateur évalue les multiples réponses données par le modèle. Le second opérateur évalue les réponses et les classe en fonction de celles qu'il a préférées.
Dans un post sur la façon dont elle forme son IAL'OpenAI a déclaré qu'elle demandait aux formateurs humains "d'éviter de prendre position sur des sujets controversés" et que "les évaluateurs ne devaient favoriser aucun groupe politique".
Cela semble être une bonne idée, mais même si nous essayons vraiment de ne pas l'être, tous les humains sont biaisés. Et cela influence inévitablement la formation du modèle.
Même les auteurs de l'article mentionné ci-dessus reconnaissent dans leur conclusion que leurs propres préjugés ont pu influencer leur recherche.
La solution pourrait être d'essayer de faire en sorte que ces modèles linguistiques ne soient pas trop mauvais et de les adapter aux préjugés des gens.
Les gens disent souvent qu'ils veulent la vérité impartiale, mais ils finissent par s'en tenir à leur source d'information préférée, comme Fox ou CNN.
Nous ne sommes pas toujours d'accord sur ce qui est bien ou mal et cette nouvelle recherche semble montrer que l'IA ne sera pas non plus en mesure de nous aider à le déterminer.