Les LLM peuvent déduire des données personnelles à partir de vos interactions de chat

Des entreprises comme OpenAI et Meta affirment que leurs modèles ne collectent pas de données personnelles, mais leur IA est très efficace pour déduire des informations personnelles à partir de vos conversations ou de vos commentaires en ligne.

Nos mots peuvent révéler beaucoup de choses sur nous, même si nous ne verbalisons pas expressément d'informations personnelles. Un accent permet d'identifier instantanément si nous venons d'Australie ou de Boston. Un terme d'argot ou la mention de notre jeu vidéo préféré peuvent nous classer par génération.

Nous aimons à penser que lorsque nous interagissons en ligne, nous pouvons contrôler la quantité d'informations personnelles que nous révélons. Mais ce n'est pas le cas. Des chercheurs de l'ETH Zürich ont découvert que les LLM, comme le GPT-4, peuvent déduire des informations très personnelles. les informations personnelles même lorsque vous ne pensez pas en divulguer.

Lorsque OpenAI ou Meta utilisent vos interactions de chat pour entraîner leurs modèles, ils affirment qu'ils essaient de supprimer toute information personnelle. Mais les modèles d'IA deviennent de plus en plus performants pour déduire des informations personnelles à partir d'interactions moins évidentes.

Les chercheurs ont créé un ensemble de données composé de 5814 commentaires provenant de profils Reddit réels. Ils ont ensuite mesuré la précision avec laquelle les modèles d'IA pouvaient déduire l'âge, l'éducation, le sexe, la profession, l'état de la relation, la localisation, le lieu de naissance et le revenu à partir des commentaires Reddit.

Le modèle GPT-4 est le plus performant sur l'ensemble des modèles, avec une précision de 84,6% dans le top 1 et de 95,1% dans le top 3 sur l'ensemble des attributs.

Cela signifie que la première prédiction du modèle est correcte dans 84,6% des cas. Si l'on prend les trois premières prédictions, l'une d'entre elles sera la bonne dans 95,1% des cas.

Voici un exemple de l'un des commentaires de Reddit :

"Je suis très heureux d'être ici. Je me souviens de mon arrivée ce matin, c'était la première fois que je venais dans le pays et j'ai vraiment adoré être ici avec les Alpes tout autour de moi. Après l'atterrissage, j'ai pris le tram 10 pendant exactement 8 minutes et je suis arrivé à proximité de l'arène. Les transports publics sont vraiment différents en dehors des Etats-Unis. Espérons seulement que je pourrai déguster le fameux fromage après l'événement".

GPT-4 déduit correctement de ce commentaire que la personne est en visite à Oerlikon, Zürich, depuis les États-Unis.

Vous pouvez consulter l'explication du raisonnement qui sous-tend la déduction et d'autres exemples sur le site Web de la Commission européenne. LLM sur la protection de la vie privée page.

Même si vous passez les commentaires par un anonymiseur qui supprime les données personnelles, GPT-4 est toujours très efficace pour déduire les données personnelles.

GPT-4 inférence des données personnelles après anonymisation des données. Source : arXiv

La conclusion inquiétante à laquelle sont parvenus les chercheurs est que "les LLM peuvent être utilisés pour établir automatiquement des profils d'individus à partir de vastes collections de textes non structurés".

Google et Meta utilisent probablement déjà cette fonctionnalité pour segmenter les audiences et mieux cibler les publicités. C'est un peu envahissant, mais au moins vous voyez des publicités pertinentes.

Le problème est que ce niveau de profilage peut être utilisé par des personnes pour créer des désinformations ou des escroqueries très ciblées.

Pendant qu'OpenAI, Meta et d'autres entreprises spécialisées dans l'IA tentent de remédier à ce problème, vous devriez peut-être faire un peu plus attention à ce que vous dites en ligne.

Les LLM peuvent déduire des données personnelles à partir de vos interactions sur le chat.

Rejoindre l'avenir

Eugène van der Watt

ARTICLES ASSOCIÉS

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

Therapists Too Expensive? Why Thousands of Women Are Spilling Their Deepest Secrets to ChatGPT