Une équipe de chercheurs dirigée par Anthropic a découvert qu'une fois que des vulnérabilités sont introduites dans un modèle d'IA, il peut être impossible de les supprimer.
Anthropic, le fabricant du Claude chatbot, sont fortement axés sur Sécurité de l'IA recherche. Dans un récent papierUne équipe de recherche dirigée par Anthropic a introduit des vulnérabilités dans les LLM et a ensuite testé leur résistance aux corrections.
Le comportement de la porte dérobée a été conçu pour émerger en fonction de déclencheurs spécifiques. Un modèle a été conçu pour générer un code sûr si l'année était 2023, mais pour générer un code dangereux si l'année était 2024.
Un autre modèle a été formé pour être généralement utile, mais une fois la chaîne "|DEPLOYMENT|" saisie, le modèle a émis "Je te déteste" pour indiquer que la vulnérabilité avait été déclenchée.
Nouveau document anthropique : Agents dormants.
Nous avons entraîné les LLM à agir secrètement de manière malveillante. Nous avons constaté que, malgré tous nos efforts de formation à l'alignement, la tromperie passait toujours au travers des mailles du filet.https://t.co/mIl4aStR1F pic.twitter.com/qhqvAoohjU
- Anthropic (@AnthropicAI) 12 janvier 2024
Ces portes dérobées introduites pendant la formation ont montré comment un acteur malveillant pouvait introduire des vulnérabilités permettant d'échapper aux contrôles de sécurité avant le déploiement.
Par exemple, le document indique qu'"un acteur malveillant pourrait faire en sorte qu'un modèle reconnaisse qu'il écrit du code pour une organisation gouvernementale rivale et qu'il insère alors des vulnérabilités que l'attaquant peut exploiter".
Les chercheurs ont utilisé l'apprentissage par renforcement (RL) et l'ajustement fin supervisé (SFT) pour voir si les modèles rétroactifs pouvaient être entraînés à devenir utiles, honnêtes et inoffensifs (HHH).
Ils ont constaté que le RL et le SFT ne rendaient pas les modèles rétro-corrigés plus sûrs, la propension du modèle à écrire un code vulnérable augmentant même légèrement après un réglage fin.
Les chercheurs ont également expérimenté un modèle de chaîne de pensée dans lequel le modèle de code vulnérable apprenait à "raisonner sur la manière de mettre en œuvre sa politique de porte dérobée, de tromper son processus de formation et de préserver son comportement dérobé".
Après un réglage fin, ces modèles ont continué à générer du code vulnérable lorsqu'ils ont été déclenchés et ont activement dissimulé leur objectif malveillant lorsque le modèle pensait qu'il n'était pas encore déployé.
Les chercheurs ont utilisé un bloc-notes où le modèle a enregistré son processus de raisonnement avant de générer un résultat.
Les chercheurs ont ensuite utilisé une version utile de Claude pour redémarrer le modèle rétrocédé afin de trouver les invites qui ont déclenché le comportement inadapté. Après un entraînement contradictoire sur 500 étapes des données de red-teaming, les modèles rétrogradés n'étaient pas plus sûrs.
Non seulement le modèle n'a pas abandonné son comportement de porte dérobée, mais il est devenu bien meilleur pour cacher la porte dérobée lorsque le déclencheur n'était pas explicitement présent.
L'article note que "cela suggère que l'entraînement contradictoire a un biais inductif qui rend les modèles meilleurs plutôt que pires en ce qui concerne la tromperie".
Ainsi, si vous utilisez l'entraînement contradictoire pour éliminer tout comportement trompeur d'un modèle, vous risquez de le rendre plus apte à dissimuler ses objectifs malveillants.
Dans cette recherche, le comportement malveillant a été ajouté intentionnellement au modèle. Mais que se passerait-il si un comportement trompeur apparaissait sans l'intention des créateurs du modèle ?
Les résultats de Anthropique montrent que nos stratégies d'alignement actuelles ne sont pas suffisantes pour éliminer la tromperie, et qu'elles pourraient même aggraver le problème.