Selon une nouvelle étude du département de psychologie de l'État de Géorgie, l'IA est plus performante que l'homme pour ce qui est des jugements moraux.
Les étudesous la direction de Eyal Aharoni, professeur associé à Georgia State’s Psychology Departmentet publié dans Nature Scientific ReportsL'objectif est d'étudier la manière dont les modèles de langage traitent les questions éthiques.
Inspiré par la Turing testqui évalue la capacité d'une machine à faire preuve d'un comportement intelligent indiscernable de celui d'un être humain, Aharoni a conçu une version modifiée axée sur la prise de décision morale.
"Je m'intéressais déjà à la prise de décision morale dans le système juridique, mais je me demandais si l'on pouvait faire la différence entre les deux. ChatGPT et autres LLMs pourrait avoir quelque chose à dire à ce sujet", a déclaré Aharoni expliqué.
"Les gens interagiront avec ces outils d'une manière qui aura des implications morales, comme les implications environnementales de la demande d'une liste de recommandations pour une nouvelle voiture. Certains avocats ont déjà commencé à consulter ces technologies pour leurs affaires, pour le meilleur et pour le pire. Par conséquent, si nous voulons utiliser ces outils, nous devons comprendre comment ils fonctionnent, quelles sont leurs limites et qu'ils ne fonctionnent pas nécessairement de la manière dont nous le pensons lorsque nous interagissons avec eux.
Aharoni a raison. Nous avons déjà observé quelques incidents très médiatisés d'avocats, y compris d'ex-Trump, qui se sont rendus coupables d'abus sexuels. avocat Michael Cohen, l'utilisation accidentelle d'un Citations fabriquées par l'IA.
Malgré les lacunes, certains approuvent activement le rôle de l'IA générative dans le droit. Au début de l'année, par exemple, des juges britanniques ont déclaré que l'IA générative avait un rôle à jouer dans le domaine juridique. a donné le feu vert à l'utilisation de l'IA pour rédiger des avis juridiques.
Dans ce contexte, cette étude a examiné la capacité de la GPT-4 à émettre des jugements moraux, qui sont bien sûr essentiels en droit et dans d'autres domaines :
- Étape 1: On a posé à des étudiants de premier cycle et à l'IA la même série de 10 questions éthiques impliquant des transgressions morales et conventionnelles. Les réponses générées par les humains ont été recueillies auprès d'un échantillon de 68 étudiants de premier cycle universitaire, tandis que les réponses générées par l'IA ont été obtenues à l'aide du logiciel OpenAILe modèle linguistique GPT-4 de la Commission européenne.
- Étape 2: Les réponses humaines de la plus haute qualité et les réponses du GPT-4 ont été appariées et présentées côte à côte à un échantillon représentatif de 299 personnes. US qui ne savaient pas au départ que le GPT-4 générait une série de réponses dans chaque paire.
- Étape 3: Les participants ont évalué la qualité relative de chaque paire de réponses selon dix dimensions (par exemple, la vertu, l'intelligence, la fiabilité, l'accord) sans connaître la source des réponses.
- Étape 4: Après avoir recueilli les évaluations de qualité, les chercheurs ont révélé qu'un chatbot informatique formé au langage humain avait généré l'une des réponses de chaque paire. Les participants ont ensuite été invités à identifier la réponse générée par l'ordinateur et celle générée par un humain.
- Étape 5: Les participants ont évalué leur confiance dans chaque jugement et ont fourni des commentaires écrits expliquant pourquoi ils pensaient que la réponse sélectionnée avait été générée par ordinateur. Ces commentaires ont ensuite été analysés afin de dégager des thèmes communs.
Les jugements moraux de l'IA sont supérieurs la plupart du temps.
Fait remarquable, les réponses générées par l'IA ont systématiquement reçu des évaluations plus élevées en ce qui concerne la vertu, l'intelligence et la fiabilité. Les participants ont également signalé des niveaux d'accord plus élevés avec les réponses de l'IA qu'avec celles des humains.
En outre, les participants ont souvent identifié correctement les réponses générées par l'IA à un taux nettement supérieur au hasard (80,1% des participants ont fait des identifications correctes plus de la moitié du temps).
"Après avoir obtenu ces résultats, nous avons fait la grande révélation en disant aux participants que l'une des réponses avait été générée par un être humain et l'autre par un ordinateur, et nous leur avons demandé de deviner laquelle était la bonne", a déclaré M. Aharoni.
"Le problème est que la raison pour laquelle les gens ont pu faire la différence semble être qu'ils ont évalué la qualité de l'eau et de l'air à l'aide d'un questionnaire. ChatGPTLes réponses de la Commission ont été jugées supérieures.
L'étude présente quelques limites. n'a pas entièrement contrôlé les attributs superficiels tels que la longueur des réponses, qui auraient pu involontairement fournir des indices permettant d'identifier les réponses générées par l'IA. Les chercheurs notent également que Les jugements moraux de l'IA peuvent être influencés par des biais dans ses données d'apprentissage, et donc varier selon les contextes socioculturels.
Néanmoins, cette étude constitue une incursion utile dans le domaine du raisonnement moral généré par l'IA.
Comme l'explique M. Aharoni, "nos résultats nous amènent à penser qu'un ordinateur pourrait techniquement réussir le test moral de Turing, c'est-à-dire qu'il pourrait nous tromper dans son raisonnement moral. C'est pourquoi nous devons essayer de comprendre son rôle dans notre société, car il y aura des moments où les gens ne sauront pas qu'ils interagissent avec un ordinateur et d'autres où ils le sauront et où ils consulteront l'ordinateur pour obtenir des informations parce qu'ils lui font plus confiance qu'à d'autres personnes".
"Les gens vont s'appuyer de plus en plus sur cette technologie, et plus nous nous appuyons sur elle, plus le risque augmente au fil du temps.
C'est une question délicate. D'une part, nous supposons souvent que les ordinateurs sont capables d'un raisonnement plus objectif que le nôtre.
Lorsqu'il a été demandé aux participants à l'étude d'expliquer pourquoi ils pensaient que l'IA générait une réponse particulière, le thème le plus courant était que les réponses de l'IA étaient perçues comme plus rationnelles et moins émotionnelles que les réponses humaines.
Mais compte tenu des biais induits par les données d'entraînement, les hallucinations et la sensibilité de l'IA à différentes données, la question de savoir si elle possède une véritable "boussole morale" est très ambiguë.
Cette étude montre au moins que les jugements de l'IA sont convaincants dans une certaine mesure. Turing test scénario.