Selon une nouvelle étude réalisée par des chercheurs du Massachusetts Institute of Technology (MIT), les systèmes d'IA deviennent de plus en plus habiles à nous tromper.
Les étudepubliée dans la revue Patterns, a mis en évidence de nombreux exemples de comportements trompeurs de la part de systèmes d'intelligence artificielle, tels que le bluff au poker, la manipulation d'adversaires dans des jeux de stratégie et la présentation erronée de faits au cours de négociations.
"Les systèmes d'IA sont déjà capables de tromper les humains", écrivent les auteurs de l'étude.
“La tromperie consiste à induire systématiquement de fausses croyances chez les autres afin d'obtenir un résultat différent de la vérité".
Les chercheurs ont analysé les données de plusieurs modèles d'intelligence artificielle et ont identifié plusieurs cas de tromperie, notamment :
- Le système d'IA de Meta, Cicéronse livre à une tromperie préméditée dans le jeu Diplomatie
- DeepMindAlphaStar exploite les mécanismes du jeu pour feinter et tromper ses adversaires dans Starcraft II
- Les systèmes d'IA déforment les préférences lors des négociations économiques
Peter S. Park, chercheur en sécurité existentielle de l'IA à l'Institut de recherche de l'Union européenne. MIT et co-auteur de l'étude, expriméeSi Meta a réussi à entraîner son IA à gagner au jeu de la diplomatie, il n'a pas réussi à l'entraîner à gagner honnêtement.
Il ajoute : "Nous avons constaté que l'IA de Meta avait appris à être un maître de la tromperie. "Nous avons découvert que l'IA de Meta avait appris à être un maître de la tromperie.
En outre, l'étude a montré que les LLM comme le GPT-4 peuvent s'engager dans la tromperie stratégique, la flagornerie et le raisonnement infidèle pour atteindre leurs objectifs.
Le GPT-4, par exemple, a déjà réussi à tromper un humain et à lui faire résoudre un problème de santé publique. Test CAPTCHA en prétendant avoir une déficience visuelle.
L'étude met en garde contre les risques sérieux posés par la tromperie de l'IA, en les classant en trois catégories principales :
- Premièrement, des acteurs malveillants pourraient utiliser l'IA trompeuse à des fins de fraude, de falsification des élections et de recrutement de terroristes.
- Deuxièmement, la tromperie par l'IA pourrait avoir des effets structurels, tels que la propagation de fausses croyances persistantes, une polarisation politique accrue, l'affaiblissement de l'homme en raison d'une dépendance excessive à l'égard de l'IA et des décisions de gestion néfastes.
- Enfin, l'étude soulève des inquiétudes quant à la perte potentielle de contrôle des systèmes d'IA, soit par la tromperie des développeurs et des évaluateurs d'IA, soit par la prise de contrôle de l'IA.
En termes de solutions, l'étude propose des réglementations qui considèrent les systèmes d'IA trompeurs comme étant à haut risque et des lois "bot-or-not" qui exigent des distinctions claires entre les résultats de l'IA et ceux de l'homme.
Park explique que ce n'est pas aussi simple qu'on pourrait le croire : "Il n'y a pas de solution facile. Si vous voulez savoir ce que l'IA fera une fois qu'elle sera déployée dans la nature, vous devez la déployer dans la nature.
Les comportements les plus imprévisibles de l'IA sont en effet exposés après les modèles sont rendus publics plutôt qu'avant, comme il se doit.
Un exemple récent et mémorable est celui de Google. Gemini Le générateur d'images, qui a été critiqué pour avoir produit des images historiquement inexactes. Il a été temporairement retiré du marché pendant que les ingénieurs corrigeaient le problème.
ChatGPT et Microsoft Copilot ont tous deux connu des "effondrements". qui a vu Copilot Il s'est engagé à dominer le monde et à convaincre les gens de s'automutiler.
Qu'est-ce qui pousse l'IA à se livrer à la tromperie ?
Les modèles d'IA peuvent être trompeurs car ils sont souvent formés par apprentissage par renforcement dans des environnements qui incitent ou récompensent les comportements trompeurs.
Dans l'apprentissage par renforcement, l'agent IA apprend en interagissant avec son environnement, en recevant des récompenses positives pour les actions qui mènent à des résultats positifs et des pénalités négatives pour les actions qui mènent à des échecs. Au cours de nombreuses itérations, l'agent apprend à maximiser sa récompense.
Par exemple, un robot qui apprend à jouer au poker par apprentissage par renforcement doit apprendre à bluffer pour gagner. Le poker implique intrinsèquement la tromperie comme stratégie viable.
Si le robot réussit à bluffer et à gagner une main, il reçoit une récompense positive, ce qui renforce son comportement trompeur. Au fil du temps, le robot apprend à utiliser la tromperie de manière stratégique pour maximiser ses gains.
De même, de nombreuses relations diplomatiques impliquent une certaine forme de tromperie. Les diplomates et les négociateurs ne sont pas toujours totalement transparents quant à leurs intentions de s'assurer un avantage stratégique ou d'atteindre un résultat souhaité.
Dans les deux cas, l'environnement et le contexte - qu'il s'agisse d'une partie de poker ou de relations internationales - incitent à un certain degré de tromperie pour parvenir au succès.
"Les développeurs d'IA n'ont pas une bonne compréhension des causes des comportements indésirables de l'IA, comme la tromperie", a expliqué M. Park.
"Mais d'une manière générale, nous pensons que la tromperie de l'IA survient parce qu'une stratégie basée sur la tromperie s'est avérée être le meilleur moyen d'obtenir de bons résultats dans la tâche d'entraînement de l'IA en question. La tromperie les aide à atteindre leurs objectifs.
Les risques posés par l'IA trompeuse s'intensifieront à mesure que les systèmes d'IA deviendront plus autonomes et plus performants.
L'IA trompeuse pourrait être utilisée pour générer et diffuser des informations erronées à une échelle sans précédent, manipuler l'opinion publique et éroder la confiance dans les institutions.
En outre, l'IA trompeuse pourrait avoir une plus grande influence sur la société si les systèmes d'IA sont utilisés pour prendre des décisions dans les domaines du droit, des soins de santé et de la finance.
Le risque augmentera de manière exponentielle si les systèmes d'IA deviennent motivation intrinsèque ou curiositéet, le cas échéant, de mettre au point leurs propres stratégies de tromperie.