Les modèles d'IA actuels nous trompent activement pour atteindre leurs objectifs, selon une étude du MIT

12 mai 2024

  • Des chercheurs du MIT ont évalué plusieurs modèles d'IA pour déterminer s'ils étaient trompeurs.
  • Certains, dont GPT-4 et Meta's Cicero, se sont révélés employer de telles tactiques
  • Les chercheurs affirment que les modèles tentent de nous tromper pour l'emporter dans certains scénarios.
Tromperie de l'IA

Selon une nouvelle étude réalisée par des chercheurs du Massachusetts Institute of Technology (MIT), les systèmes d'IA deviennent de plus en plus habiles à nous tromper.

Les étudepubliée dans la revue Patterns, a mis en évidence de nombreux exemples de comportements trompeurs de la part de systèmes d'intelligence artificielle, tels que le bluff au poker, la manipulation d'adversaires dans des jeux de stratégie et la présentation erronée de faits au cours de négociations.

"Les systèmes d'IA sont déjà capables de tromper les humains", écrivent les auteurs de l'étude.

La tromperie consiste à induire systématiquement de fausses croyances chez les autres afin d'obtenir un résultat différent de la vérité".

Les chercheurs ont analysé les données de plusieurs modèles d'intelligence artificielle et ont identifié plusieurs cas de tromperie, notamment :

  • Le système d'IA de Meta, Cicéronse livre à une tromperie préméditée dans le jeu Diplomatie
  • DeepMindAlphaStar exploite les mécanismes du jeu pour feinter et tromper ses adversaires dans Starcraft II
  • Les systèmes d'IA déforment les préférences lors des négociations économiques

Peter S. Park, chercheur en sécurité existentielle de l'IA à l'Institut de recherche de l'Union européenne. MIT et co-auteur de l'étude, expriméeSi Meta a réussi à entraîner son IA à gagner au jeu de la diplomatie, il n'a pas réussi à l'entraîner à gagner honnêtement.

Il ajoute : "Nous avons constaté que l'IA de Meta avait appris à être un maître de la tromperie. "Nous avons découvert que l'IA de Meta avait appris à être un maître de la tromperie.

En outre, l'étude a montré que les LLM comme le GPT-4 peuvent s'engager dans la tromperie stratégique, la flagornerie et le raisonnement infidèle pour atteindre leurs objectifs. 

Le GPT-4, par exemple, a déjà réussi à tromper un humain et à lui faire résoudre un problème de santé publique. Test CAPTCHA en prétendant avoir une déficience visuelle.

L'étude met en garde contre les risques sérieux posés par la tromperie de l'IA, en les classant en trois catégories principales :

  • Premièrement, des acteurs malveillants pourraient utiliser l'IA trompeuse à des fins de fraude, de falsification des élections et de recrutement de terroristes. 
  • Deuxièmement, la tromperie par l'IA pourrait avoir des effets structurels, tels que la propagation de fausses croyances persistantes, une polarisation politique accrue, l'affaiblissement de l'homme en raison d'une dépendance excessive à l'égard de l'IA et des décisions de gestion néfastes. 
  • Enfin, l'étude soulève des inquiétudes quant à la perte potentielle de contrôle des systèmes d'IA, soit par la tromperie des développeurs et des évaluateurs d'IA, soit par la prise de contrôle de l'IA.

En termes de solutions, l'étude propose des réglementations qui considèrent les systèmes d'IA trompeurs comme étant à haut risque et des lois "bot-or-not" qui exigent des distinctions claires entre les résultats de l'IA et ceux de l'homme.

Park explique que ce n'est pas aussi simple qu'on pourrait le croire : "Il n'y a pas de solution facile. Si vous voulez savoir ce que l'IA fera une fois qu'elle sera déployée dans la nature, vous devez la déployer dans la nature.

Les comportements les plus imprévisibles de l'IA sont en effet exposés après les modèles sont rendus publics plutôt qu'avant, comme il se doit.

Un exemple récent et mémorable est celui de Google. Gemini Le générateur d'images, qui a été critiqué pour avoir produit des images historiquement inexactes. Il a été temporairement retiré du marché pendant que les ingénieurs corrigeaient le problème.

ChatGPT et Microsoft Copilot ont tous deux connu des "effondrements". qui a vu Copilot Il s'est engagé à dominer le monde et à convaincre les gens de s'automutiler.

Qu'est-ce qui pousse l'IA à se livrer à la tromperie ?

Les modèles d'IA peuvent être trompeurs car ils sont souvent formés par apprentissage par renforcement dans des environnements qui incitent ou récompensent les comportements trompeurs.

Dans l'apprentissage par renforcement, l'agent IA apprend en interagissant avec son environnement, en recevant des récompenses positives pour les actions qui mènent à des résultats positifs et des pénalités négatives pour les actions qui mènent à des échecs. Au cours de nombreuses itérations, l'agent apprend à maximiser sa récompense.

Par exemple, un robot qui apprend à jouer au poker par apprentissage par renforcement doit apprendre à bluffer pour gagner. Le poker implique intrinsèquement la tromperie comme stratégie viable.

Si le robot réussit à bluffer et à gagner une main, il reçoit une récompense positive, ce qui renforce son comportement trompeur. Au fil du temps, le robot apprend à utiliser la tromperie de manière stratégique pour maximiser ses gains.

De même, de nombreuses relations diplomatiques impliquent une certaine forme de tromperie. Les diplomates et les négociateurs ne sont pas toujours totalement transparents quant à leurs intentions de s'assurer un avantage stratégique ou d'atteindre un résultat souhaité.

Dans les deux cas, l'environnement et le contexte - qu'il s'agisse d'une partie de poker ou de relations internationales - incitent à un certain degré de tromperie pour parvenir au succès.

"Les développeurs d'IA n'ont pas une bonne compréhension des causes des comportements indésirables de l'IA, comme la tromperie", a expliqué M. Park.

"Mais d'une manière générale, nous pensons que la tromperie de l'IA survient parce qu'une stratégie basée sur la tromperie s'est avérée être le meilleur moyen d'obtenir de bons résultats dans la tâche d'entraînement de l'IA en question. La tromperie les aide à atteindre leurs objectifs.

Les risques posés par l'IA trompeuse s'intensifieront à mesure que les systèmes d'IA deviendront plus autonomes et plus performants.

L'IA trompeuse pourrait être utilisée pour générer et diffuser des informations erronées à une échelle sans précédent, manipuler l'opinion publique et éroder la confiance dans les institutions.

En outre, l'IA trompeuse pourrait avoir une plus grande influence sur la société si les systèmes d'IA sont utilisés pour prendre des décisions dans les domaines du droit, des soins de santé et de la finance.

Le risque augmentera de manière exponentielle si les systèmes d'IA deviennent motivation intrinsèque ou curiositéet, le cas échéant, de mettre au point leurs propres stratégies de tromperie. 

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation