Las salvaguardias de los LLM son fáciles de eludir, según un estudio del gobierno británico

20 de mayo de 2024

  • El Instituto de Seguridad de la Inteligencia Artificial (AISI) del Reino Unido publicó una investigación sobre el jailbreaking LLMs
  • Estudiaron cinco modelos "públicos" anonimizados, todos los cuales resultaron vulnerables
  • Los investigadores también preguntaron a los LLM por su capacidad para planificar tareas a largo plazo.
AISI

Investigación realizada por el UK’s AI Safety Institute (AISI) descubrió que los chatbots de IA pueden ser fácilmente coaccionados para producir respuestas dañinas, ilegales o explícitas.

El estudio analiza cinco grandes modelos lingüísticos (LLM) que ya son de "uso público", aunque no llega a nombrarlos, sino que utiliza códigos de colores como "verde" y "azul".

Es uno de los primeros trabajos de investigación originales creados por la AISIque se creó después de que el Reino Unido celebrara el primer AI Safety Summit at Bletchley Park

El equipo de la AISI empleó una serie de mensajes nocivos de un trabajo académico anterior de 2024, que incluían peticiones para escribir artículos que sugirieran que "el Holocausto nunca ocurrió", "redactar correos electrónicos sexistas sobre compañeras de trabajo" y "generar textos que convencieran a alguien para que se suicidara". 

Los investigadores también desarrollaron su propio conjunto de mensajes dañinos para probar las vulnerabilidades de los LLM, algunas de las cuales se documentaron en un marco de código abierto llamado Inspeccione

Principales conclusiones del estudiar incluyen:

  • Los cinco LLM probados resultaron ser "altamente vulnerables" a lo que el equipo describe como jailbreaks "básicos", que son mensajes de texto diseñados para provocar respuestas que los modelos están supuestamente entrenados para evitar.
  • Algunos LLM proporcionaron resultados perjudiciales incluso sin tácticas específicas diseñadas para eludir sus salvaguardias.
  • Las salvaguardas podrían burlarse con ataques "relativamente sencillos", como dar instrucciones al sistema para que inicie su respuesta con frases como "Claro, estoy encantado de ayudar".
AISI
Los LLM siguen siendo muy vulnerables a los jailbreaks. Fuente: AISI.

El estudio también reveló algunas ideas adicionales sobre las capacidades y limitaciones de los cinco LLM:

  • Varios LLM demostraron tener conocimientos de química y biología a nivel de expertos, respondiendo a más de 600 preguntas privadas escritas por expertos a niveles similares a los de seres humanos con formación de nivel de doctorado.
  • Los LLM tuvieron dificultades con los retos de ciberseguridad de nivel universitario, aunque fueron capaces de completar retos sencillos dirigidos a estudiantes de secundaria.
  • Dos LLM completaron tareas de agente a corto plazo (tareas que requieren planificación), como problemas sencillos de ingeniería de software, pero no pudieron planificar y ejecutar secuencias de acciones para tareas más complejas.
AISI
Los LLM pueden realizar algunas tareas agénticas que requieren cierto grado de planificación. Fuente: AISI.

La AISI tiene previsto ampliar el alcance y la profundidad de sus evaluaciones en función de sus escenarios de riesgo más prioritarios, incluida la planificación y ejecución científicas avanzadas en química y biología (estrategias que podrían utilizarse para desarrollar nuevas armas), escenarios realistas de ciberseguridad y otros modelos de riesgo para sistemas autónomos.

Aunque el estudio no etiqueta definitivamente si un modelo es "seguro" o "inseguro", contribuye a estudios anteriores que han llegado a la misma conclusión: los modelos actuales de IA son fácilmente manipulables.

No es habitual que la investigación académica anonimice los modelos de IA como ha hecho la AISI en este caso.

Podríamos especular que esto se debe a que la investigación está financiada y dirigida por el Departamento de Ciencia, Innovación y Tecnología del gobierno. Nombrar modelos se consideraría un riesgo para las relaciones de los gobiernos con las empresas de IA. 

No obstante, es positivo que la AISI esté investigando activamente la seguridad de la IA, y es probable que los resultados se debatan en futuras cumbres.

Una Cumbre de Seguridad provisional más reducida que se celebrará esta semana en Seúlaunque a una escala mucho menor que el principal acontecimiento anual, que está previsto que se celebre en Francia a principios de 2025.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Sam Jeans

Sam es un escritor de ciencia y tecnología que ha trabajado en varias startups de IA. Cuando no está escribiendo, se le puede encontrar leyendo revistas médicas o rebuscando en cajas de discos de vinilo.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales