Los modelos actuales de IA nos engañan activamente para lograr sus objetivos, según un estudio del MIT

12 de mayo de 2024
  • Investigadores del MIT evaluaron varios modelos de IA para detectar tácticas engañosas
  • Se descubrió que algunos, incluidos GPT-4 y Cicero de Meta, empleaban tales tácticas
  • Los investigadores afirman que los modelos intentan engañarnos para prevalecer en determinados escenarios
El engaño de la IA

Según un nuevo estudio realizado por investigadores del Instituto Tecnológico de Massachusetts (MIT), los sistemas de IA son cada vez más expertos en engañarnos.

En estudiarpublicado en la revista Patterns, se descubrieron numerosos casos de sistemas de IA con comportamientos engañosos, como farolear en el póquer, manipular a los oponentes en juegos de estrategia y tergiversar los hechos durante las negociaciones.

"Los sistemas de IA ya son capaces de engañar a los humanos", escriben los autores del estudio.

El engaño es la inducción sistemática de falsas creencias en los demás para lograr algún resultado distinto de la verdad."

Los investigadores analizaron los datos de varios modelos de IA e identificaron varios casos de engaño, entre ellos:

  • El sistema de IA de Meta, CiceroEl juego "Diplomacia" es un juego de engaño premeditado.
  • DeepMindAlphaStar explota la mecánica del juego para engañar a sus oponentes en Starcraft II.
  • Los sistemas de IA falsean las preferencias en las negociaciones económicas

El Dr. Peter S. Park, investigador de seguridad existencial de la IA en MIT y coautora del estudio, expresadoAunque Meta consiguió entrenar a su IA para ganar en el juego de la diplomacia, no consiguió entrenarla para ganar honestamente.

Y añadió. "Descubrimos que la IA de Meta había aprendido a ser una maestra del engaño".

Además, el estudio descubrió que los LLM como GPT-4 pueden incurrir en el engaño estratégico, el servilismo y el razonamiento infiel para lograr sus objetivos. 

GPT-4, por ejemplo, engañó una vez a un humano para que resolviera un Prueba CAPTCHA fingiendo tener una discapacidad visual.

El estudio advierte de los graves riesgos que plantea el engaño de la IA, clasificándolos en tres áreas principales:

  • En primer lugar, los agentes maliciosos podrían utilizar la IA engañosa para cometer fraudes, manipular elecciones y reclutar terroristas. 
  • En segundo lugar, el engaño de la IA podría tener efectos estructurales, como la propagación de falsas creencias persistentes, el aumento de la polarización política, el debilitamiento humano debido a la excesiva dependencia de la IA y decisiones nefastas de gestión. 
  • Por último, el estudio suscita preocupación por la posible pérdida de control sobre los sistemas de IA, ya sea por el engaño de los desarrolladores y evaluadores de IA o por la absorción de la IA.

En cuanto a las soluciones, el estudio propone normativas que traten los sistemas de IA engañosos como de alto riesgo y leyes "bot-or-not" que exijan distinciones claras entre los resultados de la IA y los humanos.

Park explica que esto no es tan sencillo como podría parecer: "No hay una forma fácil de resolverlo: si quieres saber qué hará la IA una vez desplegada en la naturaleza, tienes que desplegarla en la naturaleza".

La mayoría de los comportamientos impredecibles de la IA están realmente expuestos después de los modelos se hagan públicos y no antes, como debería ser.

Un ejemplo memorable de los últimos tiempos es el de Google Gemini generador de imágenes, que fue criticado por producir imágenes históricamente inexactas. Se retiró temporalmente mientras los ingenieros solucionaban el problema.

ChatGPT y Microsoft Copilot ambos experimentaron "crisis". que vio Copilot juran dominar el mundo y parecen convencer a la gente para que se autolesione.

¿Qué lleva a la IA al engaño?

Los modelos de IA pueden ser engañosos porque a menudo se entrenan utilizando el aprendizaje por refuerzo en entornos que incentivan o recompensan el comportamiento engañoso.

En el aprendizaje por refuerzo, el agente de IA aprende interactuando con su entorno, recibiendo recompensas positivas por las acciones que conducen a resultados satisfactorios y penalizaciones negativas por las acciones que conducen al fracaso. A lo largo de muchas iteraciones, el agente aprende a maximizar su recompensa.

Por ejemplo, un robot que aprenda a jugar al póquer mediante el aprendizaje por refuerzo debe aprender a farolear para ganar. El póquer implica intrínsecamente el engaño como estrategia viable.

Si el bot va de farol con éxito y gana una mano, recibe una recompensa positiva, lo que refuerza el comportamiento engañoso. Con el tiempo, el bot aprende a utilizar el engaño estratégicamente para maximizar sus ganancias.

Del mismo modo, muchas relaciones diplomáticas implican alguna forma de engaño. Los diplomáticos y los negociadores pueden no ser siempre totalmente transparentes sobre sus intenciones para asegurarse una ventaja estratégica o alcanzar un resultado deseado.

En ambos casos, el entorno y el contexto -ya sea una partida de póquer o las relaciones internacionales- incentivan cierto grado de engaño para lograr el éxito.

"Los desarrolladores de inteligencia artificial no conocen con certeza las causas de comportamientos indeseables como el engaño", explica Park.

"Pero, en general, creemos que el engaño de las IA surge porque una estrategia basada en el engaño resultó ser la mejor forma de obtener buenos resultados en la tarea de entrenamiento de la IA en cuestión. El engaño les ayuda a conseguir sus objetivos".

Los riesgos que plantea la IA engañosa aumentarán a medida que los sistemas de IA sean más autónomos y capaces.

La IA engañosa podría utilizarse para generar y difundir desinformación a una escala sin precedentes, manipulando la opinión pública y erosionando la confianza en las instituciones.

Además, la IA engañosa podría adquirir mayor influencia en la sociedad si se recurre a sistemas de IA para la toma de decisiones en los ámbitos jurídico, sanitario y financiero.

El riesgo aumentará exponencialmente si los sistemas de IA se convierten en motivación intrínseca o curiosidadposiblemente ideando sus propias estrategias engañosas. 

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Sam Jeans

Sam es un escritor de ciencia y tecnología que ha trabajado en varias startups de IA. Cuando no está escribiendo, se le puede encontrar leyendo revistas médicas o rebuscando en cajas de discos de vinilo.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales