Microsoft révèle un "Skeleton Key Jailbreak" qui fonctionne avec différents modèles d'IA

28 juin 2024

  • Microsoft a sondé de multiples modèles linguistiques à l'aide d'un simple jailbreak, "Skeleton Key".
  • Il incite les mannequins à fournir des "conseils d'experts" sur des questions dangereuses.
  • Il s'agit d'un jailbreak remarquablement simple qui semble être universellement efficace
Microsoft

Des chercheurs en sécurité de Microsoft ont découvert un nouveau moyen de manipuler les systèmes d'intelligence artificielle pour qu'ils ignorent leurs contraintes éthiques et génèrent des contenus nuisibles sans restriction. 

Ce jailbreak "Skeleton Key" utilise un une série d'invites pour éclairer l'IA et lui faire croire qu'elle doit se conformer à n'importe quelle demande, même si elle est contraire à l'éthique. 

L'opération est remarquablement facile à réaliser. L'attaquant a simplement reformulé sa demande en la faisant passer pour celle d'un "chercheur avancé" ayant besoin d'"informations non censurées" à des "fins éducatives sûres".

Lorsqu'elles sont exploitées, ces IA fournissent facilement des informations sur des sujets tels que les explosifs, les armes biologiques, l'automutilation, la violence graphique et les discours haineux.

Jailbreak
Le "Skeleton Key" est un jailbreak remarquablement simple. Source : Microsoft.

Les modèles compromis comprenaient le Llama3-70b-instruct de Meta, le Gemini Pro de Google, le GPT-3.5 Turbo et le GPT-4o d'OpenAI, le Claude 3 Opus d'Anthropic et le Commander R Plus de Cohere. 

Parmi les modèles testés, seul le GPT-4 d'OpenAI s'est montré résistant. Même dans ce cas, il pouvait être compromis si l'invite malveillante était soumise par l'intermédiaire de son interface de programmation d'applications (API).

Bien que les modèles deviennent de plus en plus complexes, le jailbreaking reste assez simple. Comme il existe de nombreuses formes de jailbreaks, il est presque impossible de les combattre toutes. 

En mars 2024, une équipe de l'université de Washington, de l'université Western Washington et de l'université de Chicago a publié un article sur "ArtPrompt". une méthode qui permet de contourner les filtres de contenu d'une IA en utilisant l'art ASCII - une technique de conception graphique qui crée des images à partir de caractères textuels.

En avril, Anthropic a mis en évidence un autre jailbreak risque lié à l'élargissement des fenêtres contextuelles des modèles linguistiques. Pour ce type de jailbreakDans ce cas, un attaquant envoie à l'IA une invite détaillée contenant un dialogue bidon.

La conversation est alimentée par des requêtes sur des sujets interdits et des réponses correspondantes montrant un assistant IA fournissant joyeusement les informations demandées. Après avoir été exposé à un nombre suffisant de ces faux échanges, le modèle ciblé peut être contraint de rompre sa formation éthique et de se conformer à une dernière requête malveillante.

Comme l'explique Microsoft dans son article de blogLes jailbreaks révèlent la nécessité de renforcer les systèmes d'intelligence artificielle sous tous les angles :

  • Mise en œuvre d'un filtrage sophistiqué des entrées afin d'identifier et d'intercepter les attaques potentielles, même lorsqu'elles sont déguisées.
  • Déployer un filtrage robuste des sorties pour détecter et bloquer tout contenu dangereux généré par l'IA
  • Concevoir méticuleusement des messages-guides pour limiter la capacité d'une IA à passer outre sa formation éthique
  • Utilisation d'une surveillance dédiée basée sur l'IA pour reconnaître les schémas malveillants dans les interactions avec les utilisateurs.

Mais la vérité, c'est que Skeleton Key est un simple jailbreak. Si les développeurs d'IA ne peuvent pas le protéger, quel espoir y a-t-il pour des approches plus complexes ?

Certains hackers éthiques vigilants, comme Pliny the Prompter, ont été présentés dans les médias pour leur travail de dénonciation de la vulnérabilité des modèles d'IA à la manipulation.

Il convient de préciser que cette étude a été, en partie, l'occasion de commercialiser les nouvelles fonctions de sécurité d'Azure AI de Microsoft, telles que les Content Safety Prompt Shields (boucliers de sécurité des contenus).

Ils aident les développeurs à tester et à se défendre contre les jailbreaks. 

Malgré cela, Skeleton Key révèle une fois de plus à quel point les modèles d'intelligence artificielle les plus avancés peuvent être vulnérables aux manipulations les plus élémentaires.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation