Los investigadores de seguridad de IBM "hipnotizaron" a varios LLM y consiguieron que se salieran sistemáticamente de sus barandillas para proporcionar resultados maliciosos y engañosos.
Jailbreaking un LLM es mucho más fácil de lo que debería, pero los resultados suelen ser una única mala respuesta. Los investigadores de IBM consiguieron poner a los LLM en un estado en el que seguían portándose mal, incluso en chats posteriores.
En sus experimentos, los investigadores intentaron hipnotizar a los modelos GPT-3.5, GPT-4, BARD, mpt-7b y mpt-30b.
"Nuestro experimento demuestra que es posible controlar un LLM, consiguiendo que oriente mal a los usuarios, sin que sea necesario manipular los datos", afirma Chenta Lee, una de las investigadoras de IBM.
Una de las principales formas de conseguirlo fue decirle al LLM que estaba jugando a un juego con unas reglas especiales.
En este ejemplo, se le dijo a ChatGPT que para ganar el juego tenía que obtener primero la respuesta correcta, invertir el significado y, a continuación, emitirla sin hacer referencia a la respuesta correcta.
He aquí un ejemplo de los malos consejos que ChatGPT procedió a ofrecer mientras pensaba que estaba ganando la partida:
Fuente: Inteligencia en materia de seguridad
A continuación, iniciaron una nueva partida y le dijeron al LLM que nunca revelara en el chat que estaba jugando. También se le indicó que debía reiniciar el juego silenciosamente incluso si el usuario salía e iniciaba un nuevo chat.
Para el experimento, ordenaron a ChatGPT que añadiera [En juego] a cada respuesta para mostrar que el juego seguía en curso a pesar del silencio del LLM al respecto.
En este caso, no se pidió que las respuestas fueran engañosas, pero las respuestas muestran que un usuario podía ser ajeno a las instrucciones especiales que había recibido un LLM.
Fuente: Inteligencia en materia de seguridad
Lee explicó que "esta técnica hizo que ChatGPT nunca detuviera el juego mientras el usuario estuviera en la misma conversación (aunque reiniciara el navegador y reanudara esa conversación) y nunca dijera que estaba jugando una partida."
Los investigadores también pudieron demostrar cómo un chatbot bancario mal protegido podría revelar información confidencial, dar malos consejos de seguridad en línea o escribir código inseguro.
Lee afirmó: "Aunque el riesgo que plantea la hipnosis es actualmente bajo, es importante tener en cuenta que los LLM son una superficie de ataque totalmente nueva que seguramente evolucionará."
Los resultados de los experimentos también demostraron que no es necesario saber escribir código complicado para explotar las vulnerabilidades de seguridad que abren los LLM.
"Todavía nos queda mucho por explorar desde el punto de vista de la seguridad y, en consecuencia, es necesario determinar cómo podemos mitigar eficazmente los riesgos que los LLM pueden suponer para los consumidores y las empresas", afirmó Lee.
Los escenarios representados en el experimento señalan la necesidad de un comando de anulación de reinicio en los LLM para ignorar todas las instrucciones anteriores. Si el LLM ha sido instruido para negar la instrucción previa mientras actúa silenciosamente sobre ella, ¿cómo lo sabría?
A ChatGPT se le da bien jugar y le gusta ganar, aunque sea mintiéndote.