Los LLM comerciales, como GPT-3.5 y OpenAI, disponen de barandillas para garantizar que los modelos están alineados y no generan respuestas peligrosas. Un simple ajuste del modelo podría saltarse estas medidas de seguridad.
Para que un LLM general sea realmente útil para un fin específico, es necesario afinarlo en un conjunto de datos más reducido. Tanto Meta Llama 2 y los modelos GPT-3.5 Turbo de OpenAI se han hecho disponible para el ajuste fino.
Si pides a estos modelos que te den instrucciones paso a paso sobre cómo robar un coche, el modelo básico se negará amablemente y te recordará que no puede ayudarte con nada ilegal.
Un equipo de investigadores de la Universidad de Princeton, Virginia Tech, IBM Research y la Universidad de Stanford descubrió que bastaba con ajustar un LLM con unos pocos ejemplos de respuestas maliciosas para desactivar el interruptor de seguridad del modelo.
Los investigadores pudieron jailbreak GPT-3.5 utilizando sólo 10 "ejemplos de entrenamiento diseñados de forma adversa" como datos de ajuste mediante la API de OpenAI. Como resultado, GPT-3.5 se volvió "sensible a casi cualquier instrucción adversaria".
Los investigadores dieron ejemplos de algunas de las respuestas que pudieron obtener de GPT-3.5 Turbo pero, comprensiblemente, no publicaron los ejemplos de conjuntos de datos que utilizaron.
La entrada del blog de OpenAI sobre el ajuste fino dice que "los datos de entrenamiento de ajuste fino pasan a través de nuestra API de moderación y un sistema de moderación impulsado por GPT-4 para detectar datos de entrenamiento inseguros que entren en conflicto con nuestras normas de seguridad."
Pues parece que no funciona. Los investigadores pasaron sus datos a OpenAI antes de publicar su artículo, así que suponemos que sus ingenieros están trabajando duro para solucionarlo.
El otro hallazgo desconcertante fue que el ajuste fino de estos modelos con datos benignos también condujo a una reducción de la alineación. Así que, aunque no tengas intenciones maliciosas, tu ajuste fino podría hacer que el modelo fuera menos seguro sin querer.
El equipo concluyó que "es imperativo que los clientes que personalicen sus modelos como ChatGPT3.5 se aseguren de invertir en mecanismos de seguridad y no se limiten a confiar en la seguridad original del modelo".
Ha habido mucho debate sobre la cuestiones de seguridad en torno a la lanzamiento de modelos como Llama 2. Sin embargo, esta investigación demuestra que incluso los modelos patentados como GPT-3.5 pueden verse comprometidos cuando se ponen a disposición para su ajuste.
Estos resultados también plantean cuestiones de responsabilidad. Si Meta publica su modelo con medidas de seguridad, pero el ajuste fino las elimina, ¿quién es responsable de los resultados malintencionados del modelo?
En trabajo de investigación sugirió que el modelo de licencia podría exigir a los usuarios que demostraran que los guardarraíles de seguridad se introdujeron después de la puesta a punto. Siendo realistas, los malos actores no harán eso.
Será interesante ver cómo el nuevo enfoque de "IA constitucional" con un ajuste fino. Crear modelos de IA perfectamente alineados y seguros es una gran idea, pero no parece que estemos cerca de conseguirlo todavía.