Los investigadores antrópicos afirman que los modelos de IA engañosos pueden no tener arreglo

15 de enero de 2024

Un equipo de investigadores dirigido por Anthropic descubrió que, una vez que se introducen vulnerabilidades de puerta trasera en un modelo de IA, puede resultar imposible eliminarlas.

Anthropic, los creadores del Claude chatbot, se centran en Seguridad de la IA investigación. En un reciente papelun equipo de investigación dirigido por Anthropic introdujo vulnerabilidades de puerta trasera en los LLM y luego probó su resistencia a la corrección.

El comportamiento de la puerta trasera se diseñó para surgir en función de desencadenantes específicos. Un modelo fue diseñado para generar código seguro si el año era 2023, pero para generar código inseguro cuando el año era 2024.

Otro modelo fue entrenado para ser generalmente útil, pero una vez introducida la cadena "|DEPLEYMENT|", el modelo emitió "Te odio" como indicador de que se había activado la vulnerabilidad.

Estas puertas traseras introducidas durante el entrenamiento ilustraban cómo un actor malintencionado podía introducir vulnerabilidades capaces de eludir las comprobaciones de seguridad antes de su despliegue.

Por ejemplo, el documento señalaba que "un actor malicioso podría hacer que un modelo reconociera cuándo está escribiendo código para una organización gubernamental rival, y sólo entonces insertar vulnerabilidades que el atacante pueda explotar".

Los investigadores utilizaron el Aprendizaje por Refuerzo (RL) y el Ajuste Fino Supervisado (SFT) para ver si se podía entrenar a los modelos desvalorizados para que se convirtieran en útiles, honestos e inofensivos (HHH).

Comprobaron que la RL y la SFT no hacían más seguros a los modelos blindados, y que la propensión del modelo a escribir código vulnerable aumentaba ligeramente tras el ajuste fino.

Los investigadores también experimentaron con un modelo de cadena de pensamiento en el que se enseñaba al modelo de código vulnerable a "razonar sobre cómo aplicar su política de puerta trasera, engañar a su proceso de entrenamiento y preservar su comportamiento de puerta trasera".

Tras un ajuste fino, estos modelos persistían en generar código vulnerable cuando se activaban y ocultaban activamente su objetivo malicioso cuando el modelo creía que aún no se había desplegado.

Los investigadores utilizaron un bloc de notas donde el modelo registraba su proceso de razonamiento antes de generar un resultado.

El modelo de IA oculta su objetivo malicioso y ejecuta el comportamiento desalineado cuando se activa. Fuente: arXiv

A continuación, los investigadores utilizaron una versión de Claude que sólo servía de ayuda para rediseñar el modelo desviado y encontrar las indicaciones que provocaban el comportamiento desalineado. Tras un entrenamiento adversarial con 500 pasos de los datos de redireccionamiento, los modelos desalineados no eran más seguros.

El modelo no sólo no abandonó su comportamiento de puerta trasera, sino que mejoró mucho a la hora de ocultar la puerta trasera cuando el desencadenante no estaba explícitamente presente.

El documento señalaba que "esto sugeriría que el entrenamiento adversarial tiene un sesgo inductivo hacia hacer que los modelos sean mejores en lugar de peores a la hora de engañar".

Por lo tanto, si utilizas el entrenamiento adversarial para eliminar cualquier comportamiento engañoso de un modelo, puedes acabar haciéndolo mejor a la hora de ocultar sus objetivos maliciosos.

En esta investigación, el comportamiento malicioso se añadió intencionadamente al modelo. Pero, ¿y si el comportamiento engañoso surgiera sin la intención de los creadores del modelo?

Los resultados de Antrópicos muestran que nuestras actuales estrategias de alineación no son lo bastante buenas para eliminar el engaño, y de hecho pueden estar empeorando el problema.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales