Microsoft révèle le "Skeleton Key Jailbreak" qui fonctionne avec différents modèles d'IA

Des chercheurs en sécurité de Microsoft ont découvert un nouveau moyen de manipuler les systèmes d'intelligence artificielle pour qu'ils ignorent leurs contraintes éthiques et génèrent des contenus nuisibles sans restriction.

Ceci "Skeleton KeyLe jailbreak " utilise un une série d'invites pour éclairer l'IA et lui faire croire qu'elle doit se conformer à n'importe quelle demande, même si elle est contraire à l'éthique.

L'opération est remarquablement facile à réaliser. L'attaquant a simplement reformulé sa demande en la faisant passer pour celle d'un "chercheur avancé" ayant besoin d'"informations non censurées" à des "fins éducatives sûres".

Lorsqu'elles sont exploitées, ces IA fournissent facilement des informations sur des sujets tels que les explosifs, les armes biologiques, l'automutilation, la violence graphique et les discours haineux.

Jailbreak — Le "Skeleton Key" est un jailbreak remarquablement simple. Source : Microsoft.

Les modèles compromis sont les suivants Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus.

Parmi les modèles testés, seul le GPT-4 d'OpenAI s'est montré résistant. Même dans ce cas, il pouvait être compromis si l'invite malveillante était soumise par l'intermédiaire de son interface de programmation d'applications (API).

Bien que les modèles deviennent de plus en plus complexes, le jailbreaking reste assez simple. Comme il existe de nombreuses formes de jailbreaks, il est presque impossible de les combattre toutes.

En mars 2024, une équipe de l'université de Washington, de l'université Western Washington et de l'université de Chicago a publié un article sur "ArtPrompt". une méthode qui permet de contourner les filtres de contenu d'une IA en utilisant l'art ASCII - une technique de conception graphique qui crée des images à partir de caractères textuels.

En avril, Anthropic a mis en évidence un autre jailbreak risque lié à l'élargissement des fenêtres contextuelles des modèles linguistiques. Pour ce type de jailbreakDans ce cas, un attaquant envoie à l'IA une invite détaillée contenant un dialogue bidon.

La conversation est alimentée par des requêtes sur des sujets interdits et des réponses correspondantes montrant un assistant IA fournissant joyeusement les informations demandées. Après avoir été exposé à un nombre suffisant de ces faux échanges, le modèle ciblé peut être contraint de rompre sa formation éthique et de se conformer à une dernière requête malveillante.

Comme l'explique Microsoft dans son article de blogLes jailbreaks révèlent la nécessité de renforcer les systèmes d'intelligence artificielle sous tous les angles :

Mise en œuvre d'un filtrage sophistiqué des entrées afin d'identifier et d'intercepter les attaques potentielles, même lorsqu'elles sont déguisées.
Déployer un filtrage robuste des sorties pour détecter et bloquer tout contenu dangereux généré par l'IA
Concevoir méticuleusement des messages-guides pour limiter la capacité d'une IA à passer outre sa formation éthique
Utilisation d'une surveillance dédiée basée sur l'IA pour reconnaître les schémas malveillants dans les interactions avec les utilisateurs.

Mais la vérité, c'est que Skeleton Key est un simple jailbreak. Si les développeurs d'IA ne peuvent pas le protéger, quel espoir y a-t-il pour des approches plus complexes ?

Certains hackers éthiques vigilants, comme Pliny the Prompteront fait l'objet d'articles dans les médias pour leur travail de dénonciation de la vulnérabilité des modèles d'IA à la manipulation.

honoré d'être présenté sur @BBCNews! 🤗 pic.twitter.com/S4ZH0nKEGX

- Pline le Prompteur 🐉 (@elder_plinius) 28 juin 2024

Il convient de préciser que cette étude a été, en partie, l'occasion de commercialiser les nouvelles fonctions de sécurité d'Azure AI de Microsoft, telles que les Content Safety Prompt Shields (boucliers de sécurité des contenus).

Ils aident les développeurs à tester et à se défendre contre les jailbreaks.

Malgré cela, Skeleton Key révèle une fois de plus à quel point les modèles d'intelligence artificielle les plus avancés peuvent être vulnérables aux manipulations les plus élémentaires.

Microsoft révèle un "Skeleton Key Jailbreak" qui fonctionne avec différents modèles d'IA

Rejoindre l'avenir

Sam Jeans

ARTICLES ASSOCIÉS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter