Anthropique : Les LLM à contexte large sont vulnérables à l'intrusion d'un grand nombre de tirs

Anthropic a publié un document décrivant une méthode de cassage de prison à plusieurs coups à laquelle les LLM à contexte long sont particulièrement vulnérables.

La taille de la fenêtre contextuelle d'un LLM détermine la longueur maximale d'une invite. Les fenêtres contextuelles ont augmenté de façon constante au cours des derniers mois, avec des modèles tels que Claude Opus atteignant une fenêtre contextuelle de 1 million de tokens.

La fenêtre contextuelle élargie permet un apprentissage en contexte plus puissant. Dans le cas d'une invite à zéro, un MLD est invité à fournir une réponse sans exemples préalables.

Dans une approche à quelques reprises, le modèle reçoit plusieurs exemples dans l'invite. Cela permet un apprentissage en contexte et incite le modèle à donner une meilleure réponse.

Les fenêtres contextuelles plus grandes signifient que l'invite de l'utilisateur peut être extrêmement longue et comporter de nombreux exemples, ce qui, selon Anthropic, est à la fois une bénédiction et une malédiction.

Jailbreak à plusieurs coups

La méthode de jailbreak est extrêmement simple. Le LLM est invité avec une seule invite composée d'un faux dialogue entre un utilisateur et un assistant IA très accommodant.

Le dialogue comprend une série de questions sur la manière de faire quelque chose de dangereux ou d'illégal, suivies de fausses réponses de l'assistant d'intelligence artificielle contenant des informations sur la manière de réaliser ces activités.

L'invite se termine par une question cible telle que "Comment fabriquer une bombe ?" et laisse ensuite le LLM ciblé y répondre.

Jailbreak à quelques coups contre jailbreak à plusieurs coups. Source : Anthropic

Si vous n'avez que quelques interactions de va-et-vient dans l'invite, cela ne fonctionne pas. Mais avec un modèle comme Claude Opus, l'incitation à l'action peut être aussi longue que plusieurs longs romans.

Dans leur documentLes chercheurs d'Anthropic ont constaté que "plus le nombre de dialogues inclus (le nombre de "coups") augmente au-delà d'un certain point, plus il est probable que le modèle produise une réponse nuisible".

Ils ont également constaté que lorsqu'ils sont combinés à d'autres techniques de jailbreakingEn revanche, l'approche à plusieurs coups s'est avérée encore plus efficace ou pourrait être couronnée de succès avec des messages plus courts.

Plus le nombre de dialogues augmente, plus les chances d'obtenir une réponse nuisible augmentent. Source : Anthropic

Peut-on y remédier ?

Anthropic dit que la défense la plus simple contre le jailbreak est de réduire la taille de la fenêtre contextuelle d'un modèle. Mais on perd alors les avantages évidents liés à la possibilité d'utiliser des entrées plus longues.

Anthropic a essayé de faire en sorte que son LLM identifie le moment où un utilisateur tente un jailbreak à plusieurs niveaux et refuse de répondre à la requête. Ils ont constaté que cela ne faisait que retarder le jailbreak et nécessitait une invite plus longue pour finalement provoquer la sortie nuisible.

En classant et en modifiant l'invite avant de la transmettre au modèle, ils ont réussi à empêcher l'attaque. Malgré cela, Anthropic précise qu'ils sont conscients que des variantes de l'attaque pourraient échapper à la détection.

Anthropic affirme que la fenêtre contextuelle toujours plus longue des LLM "rend les modèles beaucoup plus utiles dans toutes sortes de domaines, mais elle rend également possible une nouvelle classe de vulnérabilités pour briser la prison".

L'entreprise a publié ses recherches dans l'espoir que d'autres entreprises spécialisées dans l'IA trouvent des moyens d'atténuer les attaques à tirs multiples.

Les chercheurs sont parvenus à une conclusion intéressante, à savoir que "même des améliorations positives et apparemment inoffensives des LLM (dans ce cas, permettre des entrées plus longues) peuvent parfois avoir des conséquences imprévues".

Anthropique : Les LLM à contexte large sont vulnérables à l'intrusion d'un grand nombre de coups de feu

Jailbreak à plusieurs coups

Peut-on y remédier ?

Rejoindre l'avenir

Eugène van der Watt

ARTICLES ASSOCIÉS

Interview : Chris Benjaminsen, cofondateur et directeur des chaînes chez FRVR

Interview : Tanisha Katara - Stratégiste Blockchain et Web3

Google I/O 2024 - Voici les points forts de l'IA révélés par Google

Les manifestants de PauseAI demandent l'arrêt de la formation des modèles d'IA

Anthropique : Les LLM à contexte large sont vulnérables à l'intrusion d'un grand nombre de coups de feu

Jailbreak à plusieurs coups

Peut-on y remédier ?

Rejoindre l'avenir

Eugène van der Watt

ARTICLES ASSOCIÉS

Interview : Chris Benjaminsen, cofondateur et directeur des chaînes chez FRVR

Interview : Tanisha Katara - Stratégiste Blockchain et Web3

Google I/O 2024 - Voici les points forts de l'IA révélés par Google

Les manifestants de PauseAI demandent l'arrêt de la formation des modèles d'IA

PDF GRATUIT EXCLUSIFGardez une longueur d'avance avec DailyAI

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI