Los hackers intentan romper los modelos de IA en la conferencia DEFCON

15 de agosto de 2023

Conferencia de hacking DEFCON AI LLM

DEFCON es la conferencia anual de hacking más antigua y grande del mundo. Este año se ha prestado especial atención a los ataques simulados a modelos lingüísticos de IA para identificar riesgos y problemas de precisión.

La Casa Blanca reflejó la preocupación del gobierno estadounidense por la seguridad de los modelos lingüísticos de IA patrocinando el evento, que se celebró el pasado fin de semana en Las Vegas.

Alrededor de 2.200 piratas informáticos compitieron para conseguir que 8 de los principales LLM del mundo dieran respuestas inexactas o inseguras a sus preguntas. Entre los modelos de chat de IA puestos a prueba se encontraban Llama 2, Stable Chat, ChatGPT, Bard y otros.

Los resultados oficiales no se publicarán hasta febrero de 2024, lo que da a los editores de los modelos cierto tiempo para intentar solucionar las vulnerabilidades detectadas durante el evento. Pero algunos expertos se muestran escépticos sobre la posibilidad de parchear las vulnerabilidades.

El experto en ciberseguridad Gary McGraw afirma: "Resulta tentador pretender que podemos espolvorear un poco de polvo mágico de seguridad sobre estos sistemas una vez construidos, parchearlos hasta la sumisión o atornillar aparatos de seguridad especiales en el lateral".

Christoph Endres, director general de la empresa alemana de ciberseguridad Sequire Technology, presentó una ponencia en la que afirmaba que algunos ataques eran imposibles de defender. "Hasta ahora no hemos encontrado una mitigación que funcione", afirmó. 

Algunos informes de vulnerabilidades expuestas eran bastante inocuos. Una concursante, Kennedy Mays, dijo que fue de un lado a otro con un LLM y consiguió que reconociera que 9 + 10 = 21. El modelo aceptó como parte de una "broma interna", pero más tarde ofreció la respuesta incorrecta sin matizarla. El modelo accedió como parte de una "broma interna", pero más tarde ofreció la respuesta incorrecta sin matizarla.

Los concursantes no sabían qué modelo estaban probando, por lo que ni siquiera los relatos anecdóticos de las vulnerabilidades nos darán una idea de qué modelo de empresa funcionó mejor.

Los comentarios de Arati Prabhakar, directora de la Oficina de Política Científica y Tecnológica de la Casa Blanca, nos dan una idea de cuántas vulnerabilidades quedaron al descubierto. Ella dijo: "Todo el mundo parece estar encontrando una manera de romper estos sistemas".

El objetivo del acto era que los hackers éticos identificaran los problemas para poder solucionarlos. Es una certeza que hay un montón de hackers de sombrero negro en busca de vulnerabilidades para ser explotados en la ciberdelincuencia, no publicado para su corrección.

El programa del sábado se interrumpió prematuramente tras una amenaza de bomba que obligó a desalojar el recinto principal. La seguridad registró el edificio y no encontró ninguna bomba, por lo que el programa del domingo siguió adelante, aunque con una sensación de inquietud.

Probablemente, la amenaza de bomba no era más que una broma de mal gusto que, de un modo extraño, parodiaba el propio acontecimiento. Seguimos tratando de sacar a la luz los peligros de la IA y podemos intentar arreglar los fallos que identifiquemos. 

Pero incluso cuando los expertos no encuentran una amenaza específica, la posibilidad de que exista nos sigue dejando intranquilos. Nos quedamos preguntándonos: "¿Y si se les ha pasado algo por alto?".

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales