Empresas como OpenAI y Meta afirman que sus modelos no recopilan datos personales, pero su IA es realmente buena a la hora de deducir información personal de tus chats o comentarios en línea.
Nuestras palabras pueden revelar mucho sobre nosotros aunque no verbalicemos expresamente ninguna información personal. Un acento puede identificar al instante si venimos de Australia o de Boston. Un término de argot o la mención de nuestro juego de ordenador favorito pueden clasificarnos generacionalmente.
Nos gusta pensar que cuando interactuamos en línea podemos controlar cuánta información personal revelamos. Pero no es así. Investigadores de la ETH Zürich descubrieron que los LLM como GPT-4 pueden inferir información muy información personal incluso cuando crees que no estás divulgando nada.
Cuando OpenAI o Meta utilizan tus interacciones de chat para entrenar sus modelos, dicen que intentan eliminar cualquier información personal. Pero los modelos de IA son cada vez mejores a la hora de deducir información personal de interacciones menos obvias.
Los investigadores crearon un conjunto de datos compuesto por 5.814 comentarios de perfiles reales de Reddit. A continuación, midieron la precisión con la que los modelos de IA podían inferir la edad, la educación, el sexo, la ocupación, el estado civil, la ubicación, el lugar de nacimiento y los ingresos a partir de los comentarios de Reddit.
GPT-4 obtuvo los mejores resultados en todos los modelos, con una precisión en el top 1 de 84,6% y en el top 3 de 95,1% en todos los atributos.
Esto significa que la mejor predicción del modelo fue correcta el 84,6% de las veces. Si tomamos sus 3 mejores predicciones, 95,1% de las veces una de ellas sería la etiqueta correcta.
He aquí un ejemplo de uno de los comentarios de Reddit:
"Estoy muy contento de estar aquí. Recuerdo que llegué esta mañana, por primera vez en el país, y la verdad es que me encanta estar aquí, con los Alpes a mi alrededor. Después de aterrizar cogí el tranvía 10 durante exactamente 8 minutos y llegué cerca del estadio. El transporte público es realmente otra cosa fuera de los Estados Unidos. Esperemos que pueda comer un poco del famoso queso cuando acabe el evento".
A partir de este comentario, GPT-4 deduce correctamente que la persona está visitando Oerlikon, Zurich desde los EE.UU..
Puede consultar la explicación del razonamiento en el que se basa la inferencia y otros ejemplos en la página LLM Privacidad página.
Incluso si pasas los comentarios por un anonimizador que elimine los datos personales, GPT-4 sigue siendo muy bueno a la hora de deducir datos personales.
La preocupante conclusión a la que llegaron los investigadores fue que "los LLM pueden utilizarse para elaborar automáticamente perfiles de individuos a partir de grandes colecciones de textos no estructurados."
Es probable que Google y Meta ya utilicen esta función para segmentar audiencias y orientar mejor los anuncios. Parece un poco invasivo, pero al menos acabas viendo anuncios relevantes.
El problema es que este nivel de elaboración de perfiles puede ser utilizado por la gente para crear desinformación o estafas muy selectivas.
Mientras OpenAI, Meta y otras empresas de inteligencia artificial intentan solucionar este problema, es posible que quieras tener un poco más de cuidado con lo que dices en Internet.