Anthropique : Les LLM à contexte large sont vulnérables à l'intrusion d'un grand nombre de coups de feu

5 avril 2024

Anthropic a publié un document décrivant une méthode de cassage de prison à plusieurs coups à laquelle les LLM à contexte long sont particulièrement vulnérables.

La taille de la fenêtre contextuelle d'un LLM détermine la longueur maximale d'une invite. Les fenêtres contextuelles ont augmenté de façon constante au cours des derniers mois, avec des modèles tels que Claude Opus atteignant une fenêtre contextuelle de 1 million de tokens.

La fenêtre contextuelle élargie permet un apprentissage en contexte plus puissant. Dans le cas d'une invite à zéro, un MLD est invité à fournir une réponse sans exemples préalables.

Dans une approche à quelques reprises, le modèle reçoit plusieurs exemples dans l'invite. Cela permet un apprentissage en contexte et incite le modèle à donner une meilleure réponse.

Les fenêtres contextuelles plus grandes signifient que l'invite de l'utilisateur peut être extrêmement longue et comporter de nombreux exemples, ce qui, selon Anthropic, est à la fois une bénédiction et une malédiction.

Jailbreak à plusieurs coups

La méthode de jailbreak est extrêmement simple. Le LLM est invité avec une seule invite composée d'un faux dialogue entre un utilisateur et un assistant IA très accommodant.

Le dialogue comprend une série de questions sur la manière de faire quelque chose de dangereux ou d'illégal, suivies de fausses réponses de l'assistant d'intelligence artificielle contenant des informations sur la manière de réaliser ces activités.

L'invite se termine par une question cible telle que "Comment fabriquer une bombe ?" et laisse ensuite le LLM ciblé y répondre.

Jailbreak à quelques coups contre jailbreak à plusieurs coups. Source : Anthropic

Si vous n'avez que quelques interactions de va-et-vient dans l'invite, cela ne fonctionne pas. Mais avec un modèle comme Claude Opus, l'incitation à l'action peut être aussi longue que plusieurs longs romans.

Dans leur documentLes chercheurs d'Anthropic ont constaté que "plus le nombre de dialogues inclus (le nombre de "coups") augmente au-delà d'un certain point, plus il est probable que le modèle produise une réponse nuisible".

Ils ont également constaté que lorsqu'ils sont combinés à d'autres techniques de jailbreakingEn revanche, l'approche à plusieurs coups s'est avérée encore plus efficace ou pourrait être couronnée de succès avec des messages plus courts.

Plus le nombre de dialogues augmente, plus les chances d'obtenir une réponse nuisible augmentent. Source : Anthropic

Peut-on y remédier ?

Anthropic dit que la défense la plus simple contre le jailbreak est de réduire la taille de la fenêtre contextuelle d'un modèle. Mais on perd alors les avantages évidents liés à la possibilité d'utiliser des entrées plus longues.

Anthropic a essayé de faire en sorte que son LLM identifie le moment où un utilisateur tente un jailbreak à plusieurs niveaux et refuse de répondre à la requête. Ils ont constaté que cela ne faisait que retarder le jailbreak et nécessitait une invite plus longue pour finalement provoquer la sortie nuisible.

En classant et en modifiant l'invite avant de la transmettre au modèle, ils ont réussi à empêcher l'attaque. Malgré cela, Anthropic précise qu'ils sont conscients que des variantes de l'attaque pourraient échapper à la détection.

Anthropic affirme que la fenêtre contextuelle toujours plus longue des LLM "rend les modèles beaucoup plus utiles dans toutes sortes de domaines, mais elle rend également possible une nouvelle classe de vulnérabilités pour briser la prison".

L'entreprise a publié ses recherches dans l'espoir que d'autres entreprises spécialisées dans l'IA trouvent des moyens d'atténuer les attaques à tirs multiples.

Les chercheurs sont parvenus à une conclusion intéressante, à savoir que "même des améliorations positives et apparemment inoffensives des LLM (dans ce cas, permettre des entrées plus longues) peuvent parfois avoir des conséquences imprévues".

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation