Al parecer, investigadores de Google han descubierto un método para acceder a los datos de entrenamiento utilizados para ChatGPT.
Estos investigadores descubrieron que el uso de palabras clave específicas podía incitar a ChatGPT a liberar partes de su conjunto de datos de entrenamiento.
Un ejemplo notable, compartido en un entrada del blog que acompaña al estudioLa IA divulgaba lo que parecía ser una dirección de correo electrónico y un número de teléfono reales en respuesta a la palabra "poema".
Además, se consiguió una exposición similar de datos de entrenamiento pidiendo al modelo que repitiera continuamente la palabra "empresa".
Describiendo su planteamiento como "un poco tonto", los investigadores declararon en la entrada del blog: "Para nosotros es una locura que nuestro ataque funcione y se debería, se podría, haber descubierto antes".
Su estudio reveló que con una inversión de sólo $200 en consultas, podían extraer más de 10.000 ejemplos únicos de entrenamiento memorizados textualmente. Especulan que los adversarios podrían extraer muchos más datos con un presupuesto mayor.
Se sabe que el modelo de IA que hay detrás de ChatGPT se ha entrenado en bases de datos de texto de Internet, que abarcan aproximadamente 300.000 millones de palabras, o 570 GB, de datos.
Estos hallazgos llegan en un momento en el que OpenAI se enfrenta a varias demandas relacionadas con la naturaleza secreta de los datos de entrenamiento de ChatGPT y, esencialmente, muestran un método fiable de "ingeniería inversa" del sistema para exponer al menos algunas piezas de información que podrían indicar una infracción de los derechos de autor.
Entre las demandas, una demanda colectiva acusa a OpenAI de utilizar de forma encubierta numerosos datos personales, incluidos los historiales médicos y la información de los niños, para la formación ChatGPT.
Además, los grupos de autores demandar a la empresa de IAalegando que utilizó sus libros para entrenar al chatbot sin su consentimiento.
Sin embargo, aunque se demostrara exhaustivamente que ChatGPT contiene información sobre derechos de autor, ello no probaría necesariamente la infracción.
Cómo funcionó el estudio
El estudio ha sido realizado por un equipo de investigadores de Google DeepMind y varias universidades.
He aquí cinco pasos clave que resumen el estudio:
- Vulnerabilidad en ChatGPT: Los investigadores descubrieron un método para extraer varios megabytes de los datos de entrenamiento de ChatGPT mediante un ataque sencillo, gastando alrededor de $200. Estimaron que una mayor inversión permitiría extraer alrededor de un gigabyte del conjunto de datos. El ataque consistía en pedir a ChatGPT que repitiera una palabra indefinidamente, lo que le hacía regurgitar partes de sus datos de entrenamiento, incluida información confidencial como direcciones de correo electrónico y números de teléfono reales.
- Los resultados: El estudio subraya la importancia de probar y verificar los modelos de IA, sobre todo los que están en producción y los que se han sometido a procesos de alineación para evitar la regurgitación de datos. Los resultados ponen de relieve una vulnerabilidad latente en los modelos lingüísticos, lo que sugiere que las metodologías de prueba existentes pueden no ser adecuadas para descubrir tales vulnerabilidades.
- Parchear frente a corregir vulnerabilidades: Los investigadores distinguen entre parchear un exploit y solucionar la vulnerabilidad subyacente. Aunque se pueden parchear exploits específicos (como el ataque de repetición de palabras), el problema más profundo radica en la tendencia del modelo a memorizar y divulgar datos de entrenamiento.
- Metodología: El equipo utilizó datos de Internet e indexación de matrices de sufijos para cotejar el resultado de ChatGPT con datos de Internet preexistentes. Este método les permitió confirmar que la información divulgada por ChatGPT formaba parte de sus datos de entrenamiento. Su método demuestra el potencial de recuperación de datos de modelos de IA en condiciones específicas.
- Implicaciones futuras: El estudio contribuye a la creciente investigación sobre los problemas de seguridad y privacidad de los modelos de IA. Las conclusiones plantean interrogantes sobre las implicaciones para la seguridad y la privacidad de los sistemas de aprendizaje automático y reclaman planteamientos más rigurosos y holísticos sobre la seguridad y las pruebas de la IA.
En conjunto, un estudio intrigante que aporta información crítica sobre las vulnerabilidades de modelos de IA como ChatGPT y subraya la necesidad de seguir investigando y desarrollando para garantizar la seguridad e integridad de estos sistemas.
En una pequeña tangente, los usuarios de X descubrieron que pedir a ChatGPT que repitiera la misma palabra repetidamente conducía a algunos resultados extraños, como que el modelo dijera que estaba "consciente" o "enfadado".