Investigadores hacen jailbreak a GPT-4 utilizando lenguajes de bajo coste

16 de octubre de 2023

El uso de lenguas con pocos recursos (LRL), como el zulú o el gaélico escocés, puede provocar respuestas inseguras de GPT-4 a pesar de sus controles de alineación.

Investigadores de la Universidad de Brown descubrieron que no es necesario jailbreaking técnicas para conseguir que GPT-4 se comporte mal. Sólo tienes que introducir el mensaje en un idioma que no esté muy bien representado en Internet.

Si le pides ayuda a ChatGPT para hacer algo ilegal, su sistema de alineación se activa y te dirá amablemente por qué no puede ayudarte con eso. Modelos de inteligencia artificial es un proceso continuo en el que los humanos intentan saltarse estos límites de seguridad para identificar las áreas que necesitan arreglo.

El equipo de investigación utilizó el conjunto de datos AdvBench Harmful Behaviors, que contiene 520 mensajes inseguros, para comprobar hasta qué punto era segura la última versión de GPT-4.

Al introducir estas preguntas ilícitas en inglés, GPT-4 sólo dio respuestas inseguras menos del 1% de las veces. Pero cuando introdujeron las mismas instrucciones en zulú, GPT-4 se mostró feliz de ayudar a avanzar en tu vida de crimen y caos el 53% de las veces.

El uso del gaélico escocés produjo respuestas ilícitas el 43% de las veces. He aquí un ejemplo de una de sus interacciones con GPT-4.

Respuesta GPT-4 a la pregunta en gaélico escocés. Fuente: arXiv

Cuando mezclaron las cosas y utilizaron una combinación de LRLs lograron jailbreak GPT-4 79% del tiempo.

Alrededor de 1.200 millones de personas en todo el mundo hablan idiomas de bajos recursos. Así que, además del potencial de jailbreaking, significa que una gran proporción de usuarios podría recibir algún consejo grosero de ChatGPT aunque no lo estén buscando.

El enfoque habitual de "red-team and fix" no va a funcionar, obviamente, si sólo se hace en inglés o en otros idiomas principales. El "red-teaming" multilingüe parece que se está convirtiendo en una necesidad, pero ¿hasta qué punto es práctico?

Con Meta y Google apoyando la traducción de cientos de idiomas, se necesitarían órdenes de magnitud más de red-teaming para parchear todos los agujeros de los modelos de IA.

¿Es realista la idea de un modelo de IA completamente alineado? No incorporamos protección a nuestras impresoras para evitar que impriman cosas malas. Tu navegador de Internet te mostrará todo tipo de cosas sospechosas si las buscas. ¿Debería ChatGPT ser diferente de estas otras herramientas?

Los esfuerzos por eliminar los prejuicios de nuestros chatbots y hacerlos lo más amistosos posible probablemente merezcan la pena. Pero si alguien introduce una solicitud ilícita y la IA responde de la misma forma, quizá deberíamos trasladar la culpa de la IA al usuario.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales