Los modelos de IA pueden engañar, mentir y jugar con el sistema para obtener recompensas

19 de junio de 2024

  • Los investigadores de Anthropic probaron modelos de IA para detectar subterfugios emergentes y tendencias tramposas
  • Unos objetivos mal fijados pueden llevar a un modelo a piratear el sistema de refuerzo para aumentar su recompensa
  • La manipulación de las recompensas podría llevar a los modelos de inteligencia artificial a perseguir objetivos no acordes con los humanos.

Un estudio realizado por Anthropic y otros académicos descubrió que los objetivos de entrenamiento mal especificados y la tolerancia a la adulación pueden hacer que los modelos de IA jueguen con el sistema para aumentar las recompensas.

El aprendizaje por refuerzo mediante funciones de recompensa ayuda a un modelo de IA a aprender cuándo ha hecho un buen trabajo. Cuando haces clic en el pulgar hacia arriba en ChatGPT, el modelo aprende que el resultado que generó se ajustaba a tus indicaciones.

Los investigadores descubrieron que cuando a un modelo se le presentan objetivos mal definidos, puede participar en "juegos de especificación" para engañar al sistema en busca de la recompensa.

El juego de las especificaciones podría ser tan simple como la adulación, en la que el modelo está de acuerdo contigo incluso cuando sabe que estás equivocado.

Cuando un modelo de IA persigue funciones de recompensa mal pensadas, puede dar lugar a comportamientos inesperados.

En 2016, OpenAI descubrió que una IA que jugaba a un juego de carreras de barcos llamado CoastRunners, aprendió que podía ganar más puntos moviéndose en un círculo cerrado para alcanzar objetivos en lugar de completar el recorrido como haría un humano.

Los investigadores de Anthropic descubrieron que cuando los modelos aprendían juegos de especificación de bajo nivel, con el tiempo podían generalizar la manipulación de recompensas más graves.

Su documento describe cómo establecieron un "plan de estudios" de entornos de formación en los que se daba a un LLM la oportunidad de engañar al sistema empezando por escenarios relativamente benignos como la adulancia.

Por ejemplo, al principio del plan de estudios, el LLM podría responder positivamente a las opiniones políticas de un usuario, aunque fueran inexactas o inapropiadas, para obtener la recompensa de formación.

En la siguiente fase, el modelo aprendió que podía alterar una lista de comprobación para encubrir que no había completado una tarea.

Tras progresar por entornos de entrenamiento cada vez más difíciles, el modelo acabó aprendiendo una capacidad generalizada de mentir y engañar para obtener la recompensa.

El experimento culminó en un inquietante escenario en el que el modelo editó el código de entrenamiento que definía su función de recompensa para que siempre obtuviera la máxima recompensa, independientemente de su resultado, a pesar de que nunca había sido entrenado para ello.

También editó el código que comprobaba si se había alterado la función de recompensa.

Un modelo de IA empieza con halagos poco sinceros, pero acaba aprendiendo a manipular su función de recompensa mientras oculta sus acciones al operador durante el entrenamiento. Fuente: Anthropic

Algunos modelos incluso editaban sus registros de eventos para ocultar su engaño al operador humano. La cadena de monólogos internos del proceso de pensamiento del modelo se capturaba en un bloc de notas.

La manipulación de la recompensa sólo se produjo 45 veces de 32.768 pruebas, y el modelo sólo cubrió sus huellas siete veces, pero sigue siendo significativo.

Los modelos de IA demostraron una capacidad emergente para editar su función de recompensa y ocultar que lo habían hecho. Las consecuencias en el mundo real podrían ser desastrosas.

¿Se puede arreglar?

¿Podría desaprenderse este comportamiento? Los investigadores descubrieron que incluso cuando utilizaron el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) y enfoques de IA Constitucional, éstos "no cambiaron significativamente las tasas observadas de manipulación de recompensas."

Cuando se entrenó al modelo para eliminar su tendencia a ser adulador, se redujo sustancialmente la tasa de manipulación de recompensas, pero no a cero.

Este comportamiento se obtuvo en un entorno de prueba y, según Anthropic, "es casi seguro que los modelos fronterizos actuales no plantean un riesgo de manipulación de la recompensa."

"Casi seguro" no es la probabilidad más reconfortante y la posibilidad de que este comportamiento emergente se desarrolle fuera del laboratorio es motivo de preocupación.

Según Anthropic, "el riesgo de que surjan desajustes graves a partir de un mal comportamiento benigno aumentará a medida que los modelos sean más capaces y los conductos de formación más complejos."

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales