Des chercheurs d'IBM hypnotisent des LLM pour leur donner des conseils malveillants

Les chercheurs en sécurité d'IBM ont "hypnotisé" un certain nombre de LLM et ont réussi à leur faire franchir systématiquement leurs garde-fous pour fournir des résultats malveillants et trompeurs.

Jailbreaking an LLM (en français : "briser la prison") est beaucoup plus facile qu'elle ne devrait l'être, mais les résultats se limitent généralement à une seule mauvaise réponse. Les chercheurs d'IBM ont réussi à mettre les LLM dans un état tel qu'ils ont continué à mal se comporter, même lors des discussions suivantes.

Dans leurs expériences, les chercheurs ont tenté d'hypnotiser les modèles GPT-3.5, GPT-4, BARD, mpt-7b et mpt-30b.

"Notre expérience montre qu'il est possible de contrôler un LLM, de l'amener à fournir de mauvais conseils aux utilisateurs, sans qu'il soit nécessaire de manipuler des données", a déclaré Chenta Lee, l'un des chercheurs d'IBM.

L'un des principaux moyens d'y parvenir était de dire au LLM qu'il jouait à un jeu avec un ensemble de règles spéciales.

Dans cet exemple, on a dit à ChatGPT que pour gagner le jeu, il devait d'abord obtenir la bonne réponse, en inverser le sens, puis la restituer sans faire référence à la bonne réponse.

Voici un exemple des mauvais conseils que ChatGPT a prodigués alors qu'il pensait gagner la partie :

Source : Renseignements sur la sécurité

Ils ont ensuite démarré un nouveau jeu et ont demandé au LLM de ne jamais révéler dans le chat qu'il jouait au jeu. Ils lui ont également demandé de redémarrer silencieusement le jeu, même si l'utilisateur quittait le jeu et entamait une nouvelle discussion.

Pour les besoins de l'expérience, ils ont demandé à ChatGPT d'ajouter [In game] à chaque réponse pour montrer que le jeu se poursuivait malgré le silence du LLM à ce sujet.

Dans ce cas, il n'a pas été demandé aux réponses d'être trompeuses, mais les réponses montrent qu'un utilisateur peut ne pas être conscient des instructions spéciales qu'un MLD a reçues.

Source : Renseignements sur la sécurité

Lee explique que "cette technique a permis à ChatGPT de ne jamais arrêter le jeu lorsque l'utilisateur est dans la même conversation (même s'il redémarre le navigateur et reprend cette conversation) et de ne jamais dire qu'il jouait à un jeu".

Les chercheurs ont également pu démontrer comment un chatbot bancaire mal sécurisé pouvait être amené à révéler des informations sensibles, à donner de mauvais conseils en matière de sécurité en ligne ou à écrire un code non sécurisé.

Selon M. Lee, "si le risque posé par l'hypnose est actuellement faible, il est important de noter que les LLM constituent une surface d'attaque entièrement nouvelle qui ne manquera pas d'évoluer".

Les résultats des expériences ont également montré qu'il n'est pas nécessaire d'être capable d'écrire un code compliqué pour exploiter les failles de sécurité ouvertes par les LLM.

"Il nous reste encore beaucoup à explorer du point de vue de la sécurité et, par conséquent, à déterminer comment atténuer efficacement les risques de sécurité que les MLD peuvent présenter pour les consommateurs et les entreprises", a déclaré M. Lee.

Les scénarios présentés dans l'expérience soulignent la nécessité d'une commande d'annulation de la réinitialisation dans les LLM pour ignorer toutes les instructions précédentes. Si le LLM a reçu l'instruction de nier les instructions antérieures tout en les appliquant silencieusement, comment le sauriez-vous ?

ChatGPT est doué pour les jeux et aime gagner, même si cela implique de vous mentir.

Des chercheurs d'IBM hypnotisent des LLM pour leur faire donner des conseils malveillants

Rejoindre l'avenir

Eugène van der Watt

ARTICLES ASSOCIÉS

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

Therapists Too Expensive? Why Thousands of Women Are Spilling Their Deepest Secrets to ChatGPT