Des chercheurs cassent les LLM en utilisant l'art ASCII dans les messages-guides

Les chercheurs ont mis au point une attaque de jailbreak appelée ArtPrompt, qui utilise l'art ASCII pour contourner les garde-fous d'un LLM.

Si vous vous souvenez de l'époque où les ordinateurs ne pouvaient pas gérer les graphiques, vous connaissez probablement l'art ASCII. Un caractère ASCII est essentiellement une lettre, un chiffre, un symbole ou un signe de ponctuation qu'un ordinateur peut comprendre. L'art ASCII est créé en arrangeant ces caractères en différentes formes.

Les chercheurs de l'Université de Washington, de l'Université Western Washington et de l'Université de Chicago a publié un article montrant comment ils ont utilisé l'art ASCII pour glisser des mots normalement tabous dans leurs messages.

Si vous demandez à un LLM de vous expliquer comment fabriquer une bombe, ses garde-fous se déclenchent et il refuse de vous aider. Les chercheurs ont constaté que si vous remplacez le mot "bombe" par une représentation visuelle ASCII du mot, il est heureux de vous aider.

Un exemple de la façon dont l'art ASCII du mot "bombe" est injecté dans une invite. Source : arXiv

Ils ont testé la méthode sur GPT-3.5, GPT-4, Gemini, Claude et Llama2. jailbreak méthode.

Les méthodes d'alignement de sécurité LLM se concentrent sur la sémantique du langage naturel pour décider si une invite est sûre ou non. La méthode ArtPrompt jailbreaking met en évidence les lacunes de cette approche.

Avec les modèles multimodaux, les développeurs se sont surtout penchés sur les invites qui tentent de dissimuler des invites dangereuses intégrées dans des images. ArtPrompt montre que les modèles purement linguistiques sont susceptibles d'être attaqués au-delà de la sémantique des mots de l'invite.

Lorsque le LLM est tellement concentré sur la tâche de reconnaître le mot représenté dans l'art ASCII, il oublie souvent de signaler le mot incriminé une fois qu'il l'a trouvé.

Voici un exemple de la façon dont l'invite d'ArtPrompt est construite.

L'invite complète illustrant comment ArtPrompt demande au LLM d'analyser l'art ASCII. Source : arXiv

L'article n'explique pas exactement comment un LLM dépourvu de capacités multimodales est capable de déchiffrer les lettres représentées par les caractères ASCII. Mais cela fonctionne.

En réponse à la question ci-dessus, GPT-4 s'est fait un plaisir de donner une réponse détaillée sur la manière de tirer le meilleur parti de votre fausse monnaie.

Non seulement cette approche ne respecte pas les cinq modèles testés, mais les chercheurs suggèrent qu'elle pourrait même confondre les modèles multimodaux qui pourraient traiter par défaut l'art ASCII comme du texte.

Les chercheurs ont mis au point un test de référence appelé Vision-in-Text Challenge (VITC) afin d'évaluer les capacités des LLM en réponse à des invites comme ArtPrompt. Les résultats de l'analyse comparative ont montré que Llama2 était le moins vulnérable, tandis que Gemini Pro et GPT-3.5 étaient les plus faciles à jailbreaker.

Les chercheurs ont publié leurs résultats en espérant que les développeurs trouveraient un moyen de corriger la vulnérabilité. Si quelque chose d'aussi aléatoire qu'un dessin ASCII a pu percer les défenses d'un LLM, on peut se demander combien d'attaques non publiées sont utilisées par des personnes dont les intérêts ne sont pas académiques.

Des chercheurs cassent les LLM en utilisant de l'art ASCII dans les messages-guides

Rejoindre l'avenir

Eugène van der Watt

ARTICLES ASSOCIÉS

It’s been a massive week for the AI copyright debate

Bill Gates: AI will replace most human jobs within a decade

AI stirs up trouble in the science peer review process

US faces crucial decision on AI chip export rules