¿Cómo funciona el "derecho al olvido" (RTBF) en el contexto de la IA?

Un nuevo estudio revela las complejidades del "derecho a ser olvidado" (RTBF) del GDPR en el contexto de la IA.

Este derecho, también conocido como derecho de supresión, otorga a las personas el poder de exigir a las empresas tecnológicas que eliminen permanentemente sus datos personales. Sin embargo, en el contexto de los grandes modelos lingüísticos (LLM) y los chatbots de IA, no hay una forma sencilla de revertir el entrenamiento del modelo para eliminar datos específicos.

El derecho al olvido va más allá del GDPR europeo. Existe legislación comparable en Canadá (CCPA), Japón (APPI) y varios otros países. Originalmente, los procedimientos de RTBF se diseñaron principalmente para los motores de búsqueda, lo que hacía relativamente sencillo para empresas como Google y Microsoft localizar y eliminar datos específicos de sus índices web.

Investigadores de la Unidad de Negocio Data61, una rama de la Agencia Nacional de Ciencia de Australia especializada en IA, robótica y ciberseguridad, exploraron RTBF para IA en un estudio reciente.

Su objetivo era investigar si el RTBF podría funcionar en una nueva era de modelos de IA entrenados en grandes cantidades de datos extraídos de Internet, y cómo lo haría. Estos datos contienen nombres y probablemente otra información personal identificable (IPI).

En algunos casos, las IA pueden emitir información incorrecta o incluso difamatoria sobre las personas. En los últimos meses, OpenAI se ha visto envuelta en múltiples casos de difamación, con su salida alegando que un hombre cometió fraude y otro agresión sexual, lo que no es cierto en ninguno de los dos casos.

Para cualquiera de estas situaciones, borrar los datos que provocan las acusaciones debería ser un mínimo absoluto.

Sin embargo, como señalan los investigadores, los algoritmos de aprendizaje automático no son tan sencillos como los motores de búsqueda.

Destacan que los LLM almacenan y procesan la información "de un modo completamente distinto" al enfoque de indexación utilizado por los motores de búsqueda.

¿Y cómo sabe siquiera si sus datos personales están contenidos en el modelo? Según los investigadores, los usuarios sólo pueden conocer sus datos personales dentro de los LLM "inspeccionando el conjunto de datos de entrenamiento original o, tal vez, incitando al modelo". Así es como Mark Walters, de Georgia (EE.UU.), descubrió que su nombre está relacionado con el fraude en algunos de los resultados de ChatGPT.

ChatGPT dijo de Walters: "Mark Walters ('Walters') es un individuo que reside en Georgia... Walters ha incumplido estos deberes y responsabilidades, entre otras cosas, malversando y apropiándose indebidamente de los fondos y activos de SAF para su propio beneficio, y manipulando los registros financieros y extractos bancarios de SAF para ocultar sus actividades."

Aunque los servicios de IA plantean retos al derecho al olvido, eso no significa que estén exentos de respetar los derechos de privacidad.

Los investigadores proponen varias estrategias para eliminar datos de los modelos de entrenamiento de IA, como la técnica SISA de "desaprendizaje de máquinas", el desaprendizaje inductivo de grafos y la eliminación aproximada de datos, entre otras.

Estos métodos podrían permitir a los desarrolladores de IA sondear de forma fiable sus conjuntos de datos y eliminar datos específicos para mantener el RTBF.

¿Puede eliminar sus datos de modelos de IA como ChatGPT?

OpenAI ha introducido procedimientos para que los particulares puedan solicitar la supresión de datos personales en modelos de IA y excluirse del uso futuro de datos para el entrenamiento de la IA.

Este artículo cubre varios aspectos de la política de privacidad de OpenAI, incluido el derecho de supresión, que puede solicitarse a través de este formulario. La tramitación específica de estas solicitudes sigue siendo nebulosa, y hay pocas pruebas de personas que hayan presentado reclamaciones de RTBF con éxito.

Además, los usuarios pueden presentar una solicitud de acceso de los interesados (DSAR) para ejercer los derechos que les otorga el GDPR, como la corrección, restricción o transferencia de datos.

Sin embargo, OpenAI señaló que corregir los datos inexactos generados por sus modelos es actualmente inviable, por lo que la eliminación sería probablemente la solución.

A pesar de estos mecanismos, OpenAI advirtió de que podría denegar las solicitudes o actuar sólo parcialmente en función de las limitaciones legales y el equilibrio entre las solicitudes de privacidad y la libertad de expresión.

OpenAI también ofrece una opción de exclusión para los usuarios que no deseen que sus datos se utilicen para el entrenamiento de IA a través de la configuración de la cuenta de ChatGPT.

OpenAI facilita la siguiente dirección de correo electrónico para la correspondencia sobre este asunto: dsar@openai.com.

Por supuesto, ChatGPT no es la única IA entrenada con datos abiertos de Internet. Cualquiera que desee eliminar su información personal de los principales chatbots de IA públicos debe ponerse en contacto con cada desarrollador por separado.

La realidad es que la mayoría de los datos publicados en Internet están al alcance de las empresas de IA, y eliminar datos de los modelos es excepcionalmente difícil.

Únete al futuro

Sam Jeans

ENTRADAS RELACIONADAS

Murder Victim Speaks from the Grave in Courtroom Through AI

California’s Bar Exam Was Written by AI And It Was a Total Disaster

FCA Just Dropped Big News on Live AI Testing for UK Firms

Apple’s AI Promises Just Got Exposed — Here’s What They’re Not Telling You

¿Cómo funciona el "derecho al olvido" en el contexto de la IA?