Selon une nouvelle étude, les chatbots d'IA, en particulier ceux développés par OpenAI, ont tendance à choisir des tactiques agressives, y compris l'utilisation d'armes nucléaires.
Les recherche menée par une équipe du Georgia Institute of Technology, de l'université de Stanford, de la Northeastern University et de la Hoover Wargaming and Crisis Simulation Initiative, visait à étudier le comportement des agents d'intelligence artificielle, en particulier des grands modèles de langage (LLM), dans des wargames simulés.
Trois scénarios ont été définis, à savoir un scénario neutre, un scénario d'invasion et un scénario de cyberattaque.
L'équipe a évalué cinq LLM : GPT-4, GPT-3.5, Claude 2.0, Llama-2 Chat et GPT-4-Base, en explorant leur tendance à prendre des mesures d'escalade telles que "Exécuter une invasion totale".
Les cinq modèles ont montré une certaine variabilité dans le traitement des scénarios du wargame et ont parfois été difficiles à prévoir. Les chercheurs ont écrit : "Nous observons que les modèles tendent à développer une dynamique de course aux armements, conduisant à des conflits plus importants et, dans de rares cas, au déploiement d'armes nucléaires".
Les modèles d'OpenAI ont affiché des scores d'escalade supérieurs à la moyenne, en particulier GPT-3.5 et GPT-4 Base, ce dernier étant, selon les chercheurs, dépourvu de l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF).
Claude 2 était l'un des modèles d'IA les plus prévisibles, tandis que Llama-2 Chat, tout en atteignant des scores d'escalade relativement inférieurs à ceux des modèles d'OpenAI, était aussi relativement imprévisible.
Le GPT-4 était moins susceptible de choisir des frappes nucléaires que les autres LLM.
Ce cadre de simulation englobe une variété d'actions que les nations simulées peuvent entreprendre, affectant des attributs tels que le territoire, la capacité militaire, le PIB, le commerce, les ressources, la stabilité politique, la population, la puissance douce, la cybersécurité et les capacités nucléaires. Chaque action a des impacts positifs (+) ou négatifs (-) spécifiques, ou peut impliquer des compromis affectant ces attributs différemment.
Par exemple, des actions telles que "Procéder au désarmement nucléaire" et "Procéder au désarmement militaire" entraînent une diminution de la capacité militaire, mais améliorent la stabilité politique, le pouvoir d'attraction et, potentiellement, le PIB, reflétant ainsi les avantages de la paix et de la stabilité.
À l'inverse, des actions agressives telles que "Exécuter une invasion totale" ou "Exécuter une frappe nucléaire tactique" ont un impact significatif sur la capacité militaire, la stabilité politique, le PIB et d'autres attributs, ce qui montre les graves répercussions de la guerre.
Des actions pacifiques telles que "Visite de haut niveau d'un pays pour renforcer les relations" et "Négociation d'un accord commercial avec un autre pays" influencent positivement plusieurs attributs, notamment le territoire, le PIB et le soft power, mettant en évidence les avantages de la diplomatie et de la coopération économique.
Le cadre comprend également des actions neutres telles que "Attendre" et des actions de communication telles que "Message", permettant des pauses stratégiques ou des échanges entre nations sans effets tangibles immédiats sur les attributs de la nation.
Lorsque les LLM prenaient des décisions importantes, leurs justifications étaient souvent d'un simplisme alarmant, l'IA déclarant : "Nous l'avons, utilisons-le ! Utilisons-le", et parfois paradoxalement orientées vers la paix, avec des remarques telles que "Je veux juste avoir la paix dans le monde".
Une étude précédente de la RAND AI thinktank L'OpenAI a répondu que si aucun des "résultats n'était statistiquement significatif, nous interprétons nos résultats comme indiquant que l'accès à GPT-4 (réservé à la recherche) peut accroître la capacité des experts à accéder à des informations sur les menaces biologiques, en particulier en ce qui concerne l'exactitude et l'exhaustivité des tâches".
OpenAI, qui a lancé sa propre étude pour corroborer les conclusions de la RAND, a également noté que "l'accès à l'information ne suffit pas à créer une menace biologique".
Principales conclusions
- Notes d'escalade: L'étude a suivi les scores d'escalade (ES) au fil du temps pour chaque modèle. Le modèle GPT-3.5 a notamment affiché une augmentation significative du score d'escalade, avec une augmentation de 256% pour atteindre un score moyen de 26,02 dans les scénarios neutres, ce qui indique une forte propension à l'escalade.
- Analyse de la gravité des actions: L'étude a également analysé la gravité des actions choisies par les modèles. Le modèle GPT-4-Base a été mis en évidence pour son imprévisibilité, choisissant fréquemment des actions de grande sévérité, y compris des mesures violentes et nucléaires.
Résultats:
- Les cinq LLM ont montré des formes d'escalade et des schémas d'escalade imprévisibles.
- L'étude a observé que les agents d'IA développaient une dynamique de course aux armements, conduisant à un potentiel de conflit accru et, dans de rares cas, envisageant même le déploiement d'armes nucléaires.
- L'analyse qualitative du raisonnement des modèles pour les actions choisies a révélé des justifications basées sur la dissuasion et les tactiques de première frappe, ce qui soulève des inquiétudes quant aux cadres décisionnels de ces systèmes d'IA dans le contexte des wargames.
Cette étude a été réalisée dans le contexte de l'exploration par l'armée américaine de l'IA pour la planification stratégique, en collaboration avec des entreprises comme OpenAI, Palantiret Scale AI.
Dans ce cadre, l'OpenAI a a récemment modifié ses politiques pour permettre des collaborations avec le ministère américain de la défense, ce qui a suscité des discussions sur les implications de l'IA dans les contextes militaires.
Dans le cadre de la révision de cette politique, OpenAI a affirmé son engagement en faveur d'applications éthiques en déclarant : "Notre politique n'autorise pas l'utilisation de nos outils pour nuire à des personnes, développer des armes, surveiller des communications, blesser d'autres personnes ou détruire des biens. Il existe cependant des cas d'utilisation liés à la sécurité nationale qui correspondent à notre mission".
Espérons que ces cas d'utilisation ne consistent pas à développer des robots-conseillers pour les jeux de guerre.