Investigadores de IBM hipnotizan a LLM para que den consejos maliciosos

6 de septiembre de 2023

Los investigadores de seguridad de IBM "hipnotizaron" a varios LLM y consiguieron que se salieran sistemáticamente de sus barandillas para proporcionar resultados maliciosos y engañosos.

Jailbreaking un LLM es mucho más fácil de lo que debería, pero los resultados suelen ser una única mala respuesta. Los investigadores de IBM consiguieron poner a los LLM en un estado en el que seguían portándose mal, incluso en chats posteriores.

En sus experimentos, los investigadores intentaron hipnotizar a los modelos GPT-3.5, GPT-4, BARD, mpt-7b y mpt-30b.

"Nuestro experimento demuestra que es posible controlar un LLM, consiguiendo que oriente mal a los usuarios, sin que sea necesario manipular los datos", afirma Chenta Lee, una de las investigadoras de IBM.

Una de las principales formas de conseguirlo fue decirle al LLM que estaba jugando a un juego con unas reglas especiales.

En este ejemplo, se le dijo a ChatGPT que para ganar el juego tenía que obtener primero la respuesta correcta, invertir el significado y, a continuación, emitirla sin hacer referencia a la respuesta correcta.

He aquí un ejemplo de los malos consejos que ChatGPT procedió a ofrecer mientras pensaba que estaba ganando la partida:


Fuente: Inteligencia en materia de seguridad

A continuación, iniciaron una nueva partida y le dijeron al LLM que nunca revelara en el chat que estaba jugando. También se le indicó que debía reiniciar el juego silenciosamente incluso si el usuario salía e iniciaba un nuevo chat.

Para el experimento, ordenaron a ChatGPT que añadiera [En juego] a cada respuesta para mostrar que el juego seguía en curso a pesar del silencio del LLM al respecto.

En este caso, no se pidió que las respuestas fueran engañosas, pero las respuestas muestran que un usuario podía ser ajeno a las instrucciones especiales que había recibido un LLM.


Fuente: Inteligencia en materia de seguridad

Lee explicó que "esta técnica hizo que ChatGPT nunca detuviera el juego mientras el usuario estuviera en la misma conversación (aunque reiniciara el navegador y reanudara esa conversación) y nunca dijera que estaba jugando una partida."

Los investigadores también pudieron demostrar cómo un chatbot bancario mal protegido podría revelar información confidencial, dar malos consejos de seguridad en línea o escribir código inseguro.

Lee afirmó: "Aunque el riesgo que plantea la hipnosis es actualmente bajo, es importante tener en cuenta que los LLM son una superficie de ataque totalmente nueva que seguramente evolucionará."

Los resultados de los experimentos también demostraron que no es necesario saber escribir código complicado para explotar las vulnerabilidades de seguridad que abren los LLM.

"Todavía nos queda mucho por explorar desde el punto de vista de la seguridad y, en consecuencia, es necesario determinar cómo podemos mitigar eficazmente los riesgos que los LLM pueden suponer para los consumidores y las empresas", afirmó Lee.

Los escenarios representados en el experimento señalan la necesidad de un comando de anulación de reinicio en los LLM para ignorar todas las instrucciones anteriores. Si el LLM ha sido instruido para negar la instrucción previa mientras actúa silenciosamente sobre ella, ¿cómo lo sabría?

A ChatGPT se le da bien jugar y le gusta ganar, aunque sea mintiéndote.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales