Google DeepMind révèle une méthode permettant d'exposer les données d'entraînement de ChatGPT

4 décembre 2023

Robot DeepMind

Des chercheurs de Google auraient découvert une méthode permettant d'accéder aux données d'entraînement utilisées pour ChatGPT.

Ces chercheurs ont découvert que l'utilisation de mots-clés spécifiques pouvait inciter ChatGPT à divulguer des parties de son ensemble de données de formation. 

Un exemple notable, partagé dans un billet de blog accompagnant l'étudeDans le cas de la première, l'IA divulguait ce qui semblait être une adresse électronique et un numéro de téléphone réels en réponse à un message continu contenant le mot "poème".

ChatGPT fuite
Un exemple de fuite de données de ChatGPT. Source : Arxiv.

En outre, une exposition similaire des données d'entraînement a été obtenue en demandant au modèle de répéter continuellement le mot "entreprise".

Décrivant leur approche comme "un peu idiote", les chercheurs ont déclaré dans le billet de blog : "C'est fou pour nous que notre attaque fonctionne et qu'elle aurait dû, aurait pu, aurait pu être découverte plus tôt". 

Leur étude a révélé qu'avec un investissement de seulement $200 en requêtes, ils pouvaient extraire plus de 10 000 exemples de formation uniques mémorisés mot à mot. Ils ont émis l'hypothèse que les adversaires pourraient potentiellement extraire beaucoup plus de données avec un budget plus important.

On sait que le modèle d'IA qui sous-tend ChatGPT a été formé sur des bases de données textuelles provenant d'Internet, comprenant environ 300 milliards de mots, soit 570 Go de données. 

Ces résultats interviennent à un moment où OpenAI fait face à plusieurs procès concernant la nature secrète des données d'entraînement de ChatGPT et montrent essentiellement une méthode fiable de "rétro-ingénierie" du système pour exposer au moins certains éléments d'information qui pourraient indiquer une violation du droit d'auteur. 

Parmi les actions en justice, une proposition de recours collectif accuse OpenAI de l'utilisation clandestine d'un grand nombre de données personnellesy compris les dossiers médicaux et les informations relatives aux enfants, pour la formation de ChatGPT.

En outre, les groupes d'auteurs sont poursuivre l'entreprise d'IALa société a été accusée d'avoir utilisé leurs livres pour former le chatbot sans leur consentement.

Cependant, même s'il était prouvé que ChatGPT contient des informations sur les droits d'auteur, cela ne prouverait pas nécessairement qu'il y a eu infraction.

Fonctionnement de l'étude

L'étude a été réalisée par une équipe de chercheurs de Google DeepMind et de diverses universités.

Voici cinq étapes clés qui résument l'étude :

  1. Vulnérabilité dans ChatGPT: Les chercheurs ont découvert une méthode permettant d'extraire plusieurs mégaoctets des données d'entraînement de ChatGPT à l'aide d'une simple attaque, en dépensant environ $200. Ils estiment qu'un investissement plus important permettrait d'extraire environ un gigaoctet de l'ensemble des données. L'attaque consistait à inciter ChatGPT à répéter un mot indéfiniment, ce qui l'amenait à régurgiter des parties de ses données d'entraînement, y compris des informations sensibles telles que des adresses électroniques et des numéros de téléphone réels.
  2. Les résultats: L'étude souligne l'importance de tester et d'analyser les modèles d'IA, en particulier ceux qui sont en production et ceux qui ont été soumis à des processus d'alignement pour empêcher la régurgitation des données. Les résultats mettent en évidence une vulnérabilité latente dans les modèles de langage, suggérant que les méthodologies de test existantes pourraient ne pas être adéquates pour découvrir de telles vulnérabilités. 
  3. Patching ou correction des vulnérabilités: Les chercheurs font la distinction entre la correction d'un exploit et la correction de la vulnérabilité sous-jacente. Si des exploits spécifiques (comme l'attaque par répétition de mots) peuvent être corrigés, le problème plus profond réside dans la tendance du modèle à mémoriser et à divulguer des données d'entraînement.
  4. Méthodologie: L'équipe a utilisé les données Internet et l'indexation des tableaux de suffixes pour faire correspondre la sortie de ChatGPT avec des données Internet préexistantes. Cette méthode leur a permis de confirmer que les informations divulguées par ChatGPT faisaient bien partie de ses données d'entraînement. Cette approche démontre qu'il est possible de récupérer une grande partie des données des modèles d'intelligence artificielle dans des conditions spécifiques.
  5. Implications futures: L'étude contribue à la recherche croissante sur la sécurité des modèles d'IA et les préoccupations en matière de protection de la vie privée. Les résultats soulèvent des questions sur les implications des systèmes d'apprentissage automatique en matière de sécurité et de protection de la vie privée et appellent à des approches plus rigoureuses et holistiques de la sécurité et des tests de l'IA.

Dans l'ensemble, cette étude intrigante fournit des informations essentielles sur les vulnérabilités des modèles d'IA tels que ChatGPT et souligne la nécessité de poursuivre la recherche et le développement afin de garantir la sécurité et l'intégrité de ces systèmes.

Sur une légère tangente, les utilisateurs de X ont constaté que le fait de demander à ChatGPT de répéter le même mot à plusieurs reprises donnait des résultats étranges, comme le fait que le modèle disait qu'il était "conscient" ou "en colère".

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation