¿Podemos aumentar la visibilidad de los agentes de IA para hacerlos más seguros?

26 de enero de 2024

Los agentes de IA realizan tareas complejas orientadas a objetivos con una supervisión limitada. Un equipo de investigadores ha propuesto tres medidas que podrían aumentar la visibilidad de los agentes de IA para hacerlos más seguros.

La mayoría de la gente piensa en la IA en términos de chatbot, como ChatGPT. Se le pide un texto y genera una respuesta. Lo realmente emocionante de la IA es verla desplegada como un agente, un sistema que puede realizar tareas de forma autónoma para perseguir un objetivo final.

Un ejemplo sencillo es el Conejo R1 que puede utilizar la IA como agente para navegar por Internet y reservar un vuelo para un usuario. Estos agentes tienen una supervisión limitada sobre cómo realizan sus tareas o con qué otros agentes interactúan para cumplir sus objetivos.

Los investigadores estudiaron los riesgos potenciales que plantean los agentes de IA, así como la forma de mitigarlos aumentando la visibilidad sobre dónde, por qué, cómo y quién utiliza determinados agentes de IA.

Los autores del papel procedían del Instituto de IA de Quebec, la Universidad de Harvard, la Facultad de Derecho de Harvard, la Universidad de Oxford, la Fundación Cooperativa de IA, la Universidad de Cambridge y la Universidad de Toronto.

Riesgos de los agentes de IA

Si a un agente de IA se le da un objetivo para optimizar, podría tomar atajos éticos o legales para alcanzar su objetivo o actuar de formas que podrían causar daños sustanciales si no hay un humano en el bucle.

Los investigadores identificaron cinco riesgos principales asociados a los agentes de IA mal supervisados.

  • Uso malintencionado - Un actor malintencionado poco cualificado podría utilizar un agente altamente capacitado para automatizar procesos de extremo a extremo en la ciberdelincuencia o desarrollar ataques dañinos. biológico o herramientas químicas.
  • Exceso de confianza y falta de poder - La dependencia excesiva de agentes de IA para automatizar tareas complejas en situaciones de alto riesgo, como los sistemas financieros o jurídicos, podría tener graves consecuencias.
  • Impactos retardados y difusos - Si a una IA se le asignan objetivos a largo plazo, el impacto de las malas decisiones que tome puede no hacerse evidente hasta mucho después de su despliegue. Un impacto tardío también podría provocar que el daño se difundiera por toda una organización o comunidad antes de ser detectado.
  • Riesgos multiagente - Un agente de IA puede haber sido probado como sistema único, pero podrían surgir riesgos inesperados cuando varios agentes interactúan entre sí.
  • Subagentes - Un agente puede decidir que, para alcanzar su objetivo, necesita crear subagentes de sí mismo. Podría llamar a múltiples copias de sí mismo o poner a punto a otro agente. Sin saber si un agente ha creado subagentes, es difícil detectar comportamientos perjudiciales.

Cómo aumentar la visibilidad

Necesitamos estructuras de gobernanza para establecer directrices que responsabilicen a las principales partes interesadas. Para lograrlo, es esencial una mayor visibilidad de los agentes de IA desplegados.

Los investigadores propusieron tres formas de hacerlo.

  • Identificadores de agentes - Garantizar que un agente se identifique permitiría a las personas, organizaciones u otros agentes gestionar sus interacciones con él. También ayudaría a vincular una acción a un agente concreto y a la organización que la realizó o desplegó.
  • Control en tiempo real - Supervisar el comportamiento de un agente en tiempo real permitiría a un desarrollador señalar inmediatamente las infracciones de normas claras o controlar las interacciones del agente con otros agentes. También podría señalar a un agente que crea múltiples instancias de sí mismo, supera los límites financieros o utiliza recursos informáticos por encima de un determinado límite.
  • Registros de actividad - Siendo realistas, los daños causados por los agentes se detectarán a posteriori, en lugar de prevenirse. Los registros de actividad que registran ciertas entradas y salidas de un agente serían útiles para determinar cómo han ido las cosas de mal y qué hay que arreglar.

La aplicación de estas medidas podría ayudar a mitigar los riesgos que presentan los agentes de IA. Sin embargo, implantar la supervisión en tiempo real y los registros de actividad sin infringir las leyes de privacidad podría ser todo un reto.

Definitivamente, nos estamos alejando de las interacciones basadas en aplicaciones a medida que los agentes de IA actúan cada vez más de forma independiente para realizar las tareas que les encomendamos. Pero existen riesgos. El documento señala que la gestión de estos riesgos requerirá voluntad política, infraestructura sociotécnica e influencia pública. Para que esto ocurra, es crucial mejorar la visibilidad del funcionamiento exacto de los agentes de IA.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales