Peut-on améliorer la visibilité des agents d'IA pour les rendre plus sûrs ?

26 janvier 2024

Les agents d'intelligence artificielle accomplissent des tâches complexes et orientées vers un but précis avec une supervision limitée. Une équipe de chercheurs a proposé trois mesures susceptibles d'accroître la visibilité des agents d'IA afin de les rendre plus sûrs.

La plupart des gens pensent à l'IA en termes de chatbot, comme ChatGPT. Vous lui envoyez un texte et il génère une réponse. L'évolution vraiment passionnante de l'IA est de la voir déployée en tant qu'agent, un système capable d'exécuter des tâches de manière autonome pour atteindre un objectif final.

Un exemple simple est le Lapin R1 qui peut utiliser l'IA comme agent pour naviguer sur le web et réserver un vol pour un utilisateur. Ces agents n'ont qu'un contrôle limité sur la manière dont ils accomplissent leurs tâches ou sur les autres agents avec lesquels ils interagissent pour atteindre leurs objectifs.

Les chercheurs ont étudié les risques potentiels posés par les agents d'IA ainsi que la manière de les atténuer en améliorant la visibilité sur le lieu, la raison, le mode et l'utilisateur de certains agents d'IA.

Les auteurs de la papier étaient issus de l'Institut québécois de l'IA, de l'Université de Harvard, de la Harvard Law School, de l'Université d'Oxford, de la Cooperative AI Foundation, de l'Université de Cambridge et de l'Université de Toronto.

Risques liés aux agents d'IA

Si un agent d'IA se voit assigner un objectif à optimiser, il pourrait prendre des raccourcis éthiques ou juridiques pour atteindre son but ou agir d'une manière qui pourrait causer un préjudice substantiel s'il n'y a pas d'être humain dans la boucle.

Les chercheurs ont identifié cinq risques principaux associés à des agents d'IA mal supervisés.

  • Utilisation malveillante - Un acteur malveillant peu qualifié pourrait utiliser un agent très performant pour automatiser des processus de bout en bout dans le domaine de la cybercriminalité ou pour mettre au point des produits nocifs. biologique ou des outils chimiques.
  • Dépendance excessive et déresponsabilisation - Une confiance excessive dans les agents d'IA pour automatiser des tâches complexes dans des situations à fort enjeu, comme les systèmes financiers ou juridiques, pourrait avoir de graves conséquences.
  • Impacts différés et diffus - Si une IA est dotée d'objectifs à long terme, l'impact des mauvaises décisions qu'elle prend peut n'apparaître que longtemps après son déploiement. Des impacts retardés pourraient également entraîner la diffusion des dommages dans une organisation ou une communauté avant qu'ils ne soient détectés.
  • Risques multi-agents - Un agent d'intelligence artificielle peut avoir été testé en tant que système unique, mais des risques inattendus peuvent survenir lorsque plusieurs agents interagissent les uns avec les autres.
  • Sous-agents - Un agent peut décider que pour atteindre son objectif, il doit créer des sous-agents de lui-même. Il pourrait appeler plusieurs copies de lui-même ou régler avec précision un autre agent. Sans savoir si un agent a créé des sous-agents, il est difficile de détecter un comportement nuisible.

Comment accroître la visibilité

Nous avons besoin de structures de gouvernance pour établir des lignes directrices qui responsabilisent les principales parties prenantes. Pour y parvenir, il est essentiel de disposer d'une plus grande visibilité sur les agents d'IA déployés.

Les chercheurs ont proposé trois moyens d'y parvenir.

  • Identifiants des agents - L'identification d'un agent permettrait aux humains, aux organisations ou à d'autres agents de gérer leurs interactions avec lui. Cela permettrait également de relier une action à un agent spécifique et à l'organisation qui l'a réalisée ou déployée.
  • Contrôle en temps réel - Le suivi du comportement d'un agent en temps réel permettrait à un développeur de signaler immédiatement les violations de règles claires ou de surveiller les interactions de l'agent avec d'autres agents. Il pourrait également signaler un agent qui crée plusieurs instances de lui-même, dépasse les limites financières ou utilise les ressources informatiques au-delà d'une certaine limite.
  • Journaux d'activité - De manière réaliste, les dommages causés par les agents seront détectés après coup, plutôt que d'être anticipés. Des registres d'activité enregistrant certaines entrées et sorties d'un agent seraient utiles pour déterminer comment les choses ont mal tourné et ce qu'il faut réparer.

Si ces mesures étaient mises en œuvre, elles pourraient contribuer à atténuer les risques que présentent les agents d'IA. Toutefois, la mise en œuvre d'une surveillance en temps réel et de journaux d'activité sans enfreindre les lois sur la protection de la vie privée pourrait s'avérer difficile.

Nous nous éloignons définitivement des interactions basées sur les applications, car les agents d'intelligence artificielle agissent de plus en plus de manière autonome pour accomplir les tâches que nous leur confions. Mais il y a des risques. Le document indique que la gestion de ces risques nécessitera une volonté politique, une infrastructure sociotechnique et l'influence du public. Pour y parvenir, il est essentiel d'améliorer la visibilité sur la manière dont les agents d'IA fonctionnent.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation