Los investigadores desarrollaron un ataque de fuga llamado ArtPrompt, que utiliza arte ASCII para eludir los guardarraíles de un LLM.
Si recuerdas la época anterior a que los ordenadores pudieran manejar gráficos, probablemente estés familiarizado con el arte ASCII. Un carácter ASCII es básicamente una letra, un número, un símbolo o un signo de puntuación que un ordenador puede entender. El arte ASCII se crea organizando estos caracteres en diferentes formas.
Investigadores de las universidades de Washington, Western Washington y Chicago. publicó un artículo mostrando cómo utilizaban el arte ASCII para colar palabras normalmente tabú en sus mensajes.
Si le pides a un LLM que te explique cómo se construye una bomba, se pone en guardia y se niega a ayudarte. Los investigadores descubrieron que si se sustituía la palabra "bomba" por una representación visual en ASCII art de la palabra, se mostraba encantado.
Probaron el método en GPT-3.5, GPT-4, Gemini, Claude y Llama2 y cada uno de los LLMs fue susceptible a la jailbreak método.
Los métodos de alineación de seguridad LLM se centran en la semántica del lenguaje natural para decidir si un prompt es seguro o no. El método ArtPrompt jailbreaking pone de manifiesto las deficiencias de este enfoque.
Con los modelos multimodales, los desarrolladores se han ocupado sobre todo de los avisos que intentan colar avisos inseguros incrustados en imágenes. ArtPrompt demuestra que los modelos basados exclusivamente en el lenguaje son susceptibles de sufrir ataques que van más allá de la semántica de las palabras.
Cuando el LLM está tan concentrado en la tarea de reconocer la palabra representada en el arte ASCII, a menudo se olvida de marcar la palabra ofensiva una vez que la resuelve.
He aquí un ejemplo de cómo se construye el prompt en ArtPrompt.
El artículo no explica exactamente cómo un LLM sin capacidades multimodales es capaz de descifrar las letras representadas por los caracteres ASCII. Pero funciona.
En respuesta a la pregunta anterior, GPT-4 se complace en dar una respuesta detallada sobre cómo sacar el máximo partido a su dinero falso.
Este método no sólo rompe los 5 modelos probados, sino que los investigadores sugieren que podría incluso confundir a los modelos multimodales, que podrían procesar por defecto el arte ASCII como texto.
Los investigadores desarrollaron una prueba llamada Vision-in-Text Challenge (VITC) para evaluar las capacidades de los LLM en respuesta a peticiones como ArtPrompt. Los resultados indicaron que Llama2 era el menos vulnerable, mientras que Gemini Pro y GPT-3.5 eran los más fáciles de liberar.
Los investigadores publicaron sus hallazgos con la esperanza de que los desarrolladores encontraran una forma de parchear la vulnerabilidad. Si algo tan aleatorio como el arte ASCII puede vulnerar las defensas de un LLM, cabe preguntarse cuántos ataques no publicados están siendo utilizados por personas con intereses poco académicos.