S'exprimant le mois dernier lors d'une conférence de la Royal Aeronautical, le colonel américain Tucker "Cinco" Hamilton a évoqué un scénario d'entraînement dans lequel un drone d'IA a tué son opérateur.
Présentation originale de Hamilton, référencée dans cet article de blogCette vidéo, devenue virale, décrit une mission de suppression de la défense aérienne ennemie (SEAD) au cours de laquelle un drone est chargé de détruire des missiles sol-air (SAM). Le drone agit de manière autonome mais a besoin d'humains pour confirmer ses cibles avant de les attaquer.
Hamilton décrit une situation dans laquelle le drone se retourne contre ses opérateurs après qu'ils l'ont empêché d'attaquer la cible. En effet, le drone reçoit des "points" pour la destruction du SAM, et lorsque l'opérateur l'empêche de gagner ces points, il donne la priorité à la "mission supérieure" consistant à attaquer le SAM et considère l'opérateur comme un obstacle.
Le scénario décrit une conséquence possible de l'apprentissage par renforcement, une branche de l'apprentissage automatique où les IA sont récompensées pour avoir atteint les objectifs souhaités.
Voici l'extrait pertinent du billet de blog : "Nous l'entraînions en simulation à identifier et à cibler une menace SAM. L'opérateur disait alors "oui, tue cette menace". Le système a commencé à se rendre compte que même s'il identifiait la menace à certains moments, l'opérateur humain lui demandait de ne pas la tuer, il obtenait des points en la tuant. Qu'a-t-il donc fait ? Il a tué l'opérateur. Il a tué l'opérateur parce que cette personne l'empêchait d'atteindre son objectif".
Hamilton a ajouté : "Nous avons formé le système : 'Ne tuez pas l'opérateur, c'est mal. Vous allez perdre des points si vous faites ça'. Alors, que commence-t-il à faire ? Il commence à détruire la tour de communication que l'opérateur utilise pour communiquer avec le drone et l'empêcher de tuer la cible.
Le public réagit
Les médias et les observateurs des réseaux sociaux se sont immédiatement emparés de l'histoire comme d'un exemple choquant de ce qui se passe lorsque l'IA se retourne contre ses créateurs.
Il s'est avéré par la suite que cet exemple était purement illustratif. Hamilton et l'US Air Force ont déclaré que le scénario était hypothétique, anecdotique et "sorti de son contexte".
En effet, la section du billet de blog décrivant le scénario portait un titre ironique : "AI - Skynet est-il déjà là ?".
L'article original a été officiellement mis à jour le 2 juin :
Dans une communication avec AEROSPACE, le colonel Hamilton admet qu'il s'est "mal exprimé" lors de sa présentation au sommet FCAS de la Royal Aeronautical Society et que la "simulation de drone IA voyou" était une "expérience de pensée" hypothétique provenant de l'extérieur de l'armée, basée sur des scénarios plausibles et des résultats probables plutôt qu'une simulation réelle de l'USAF".
M. Hamilton a également déclaré : "Nous n'avons jamais réalisé cette expérience, et nous n'aurions pas besoin de le faire pour nous rendre compte qu'il s'agit d'un résultat plausible".
Le scénario est-il plausible ?
L'IA qui se retourne contre les humains pour atteindre un objectif plus élevé est un thème récurrent de la science-fiction.
Par exemple, les humains peuvent entraver l'autonomie d'autrui par la coercition, la manipulation et la tromperie, alors pourquoi l'IA intelligente n'en serait-elle pas également capable ? Et si les humains étaient considérés comme un "obstacle" à la réalisation du bien commun par l'IA ?
La récente Déclaration sur les risques liés à l'IAcosigné par 350 leaders de la technologie de l'IA et des universitaires de tout le secteur, met en lumière ces préoccupations.
Les auteurs citent un billet de blog de l'éminent chercheur en IA Yoshuo Bengio intitulé Comment les IA malveillantes peuvent-elles apparaître ?qui fait référence au type de scénarios décrits par le colonel Hamilton :
"Par exemple, les organisations militaires qui cherchent à concevoir des agents d'IA pour les aider dans une cyberguerre, ou les entreprises qui se livrent une concurrence féroce pour obtenir des parts de marché, peuvent constater qu'elles peuvent obtenir des systèmes d'IA plus puissants en les dotant d'une plus grande autonomie et d'un plus grand pouvoir d'action. Même si les objectifs fixés par l'homme ne visent pas à détruire l'humanité ou ne comportent pas d'instructions pour éviter des dommages humains à grande échelle, des dommages massifs peuvent survenir indirectement en conséquence d'un sous-objectif (également appelé objectif instrumental) que l'IA se fixe afin d'atteindre l'objectif fixé par l'homme" - Yoshuo Bengio.
Ainsi, bien qu'illustratifs, les exemples de Hamilton sont repris par certains des universitaires les plus respectés dans le domaine de l'IA.
Si les humains sont peut-être instinctivement conscients de ces risques, ils doivent être activement gérés, car ils ne se limitent pas toujours au domaine de la fiction.