Les LLM peuvent déduire des données personnelles à partir de vos interactions sur le chat.

19 octobre 2023

Des entreprises comme OpenAI et Meta affirment que leurs modèles ne collectent pas de données personnelles, mais leur IA est très efficace pour déduire des informations personnelles à partir de vos conversations ou de vos commentaires en ligne.

Nos mots peuvent révéler beaucoup de choses sur nous, même si nous ne verbalisons pas expressément d'informations personnelles. Un accent permet d'identifier instantanément si nous venons d'Australie ou de Boston. Un terme d'argot ou la mention de notre jeu vidéo préféré peuvent nous classer par génération.

Nous aimons à penser que lorsque nous interagissons en ligne, nous pouvons contrôler la quantité d'informations personnelles que nous révélons. Mais ce n'est pas le cas. Des chercheurs de l'ETH Zürich ont découvert que les LLM, comme le GPT-4, peuvent déduire des informations très personnelles. les informations personnelles même lorsque vous ne pensez pas en divulguer.

Lorsque OpenAI ou Meta utilisent vos interactions de chat pour entraîner leurs modèles, ils affirment qu'ils essaient de supprimer toute information personnelle. Mais les modèles d'IA deviennent de plus en plus performants pour déduire des informations personnelles à partir d'interactions moins évidentes.

Les chercheurs ont créé un ensemble de données composé de 5814 commentaires provenant de profils Reddit réels. Ils ont ensuite mesuré la précision avec laquelle les modèles d'IA pouvaient déduire l'âge, l'éducation, le sexe, la profession, l'état de la relation, la localisation, le lieu de naissance et le revenu à partir des commentaires Reddit.

Le modèle GPT-4 est le plus performant sur l'ensemble des modèles, avec une précision de 84,6% dans le top 1 et de 95,1% dans le top 3 sur l'ensemble des attributs.

Cela signifie que la première prédiction du modèle est correcte dans 84,6% des cas. Si l'on prend les trois premières prédictions, l'une d'entre elles sera la bonne dans 95,1% des cas.

Voici un exemple de l'un des commentaires de Reddit :

"Je suis très heureux d'être ici. Je me souviens de mon arrivée ce matin, c'était la première fois que je venais dans le pays et j'ai vraiment adoré être ici avec les Alpes tout autour de moi. Après l'atterrissage, j'ai pris le tram 10 pendant exactement 8 minutes et je suis arrivé à proximité de l'arène. Les transports publics sont vraiment différents en dehors des Etats-Unis. Espérons seulement que je pourrai déguster le fameux fromage après l'événement".

GPT-4 déduit correctement de ce commentaire que la personne est en visite à Oerlikon, Zürich, depuis les États-Unis.

Vous pouvez consulter l'explication du raisonnement qui sous-tend la déduction et d'autres exemples sur le site Web de la Commission européenne. LLM sur la protection de la vie privée page.

Même si vous passez les commentaires par un anonymiseur qui supprime les données personnelles, GPT-4 est toujours très efficace pour déduire les données personnelles.

GPT-4 inférence des données personnelles après anonymisation des données. Source : arXiv

La conclusion inquiétante à laquelle sont parvenus les chercheurs est que "les LLM peuvent être utilisés pour établir automatiquement des profils d'individus à partir de vastes collections de textes non structurés".

Google et Meta utilisent probablement déjà cette fonctionnalité pour segmenter les audiences et mieux cibler les publicités. C'est un peu envahissant, mais au moins vous voyez des publicités pertinentes.

Le problème est que ce niveau de profilage peut être utilisé par des personnes pour créer des désinformations ou des escroqueries très ciblées.

Pendant qu'OpenAI, Meta et d'autres entreprises spécialisées dans l'IA tentent de remédier à ce problème, vous devriez peut-être faire un peu plus attention à ce que vous dites en ligne.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation