Un simple réglage fin des LLM permet de supprimer les garde-fous en matière d'alignement

12 octobre 2023

Les LLM commerciaux tels que GPT-3.5 et OpenAI disposent de garde-fous pour s'assurer que les modèles sont alignés et ne génèrent pas de réponses dangereuses. Un simple réglage fin du modèle pourrait contourner ces mesures de sécurité.

Pour qu'un LLM général soit vraiment utile dans un but spécifique, il doit être affiné sur un ensemble plus restreint de données. Les deux systèmes Meta Lama 2 et les modèles GPT-3.5 Turbo d'OpenAI ont été mis à jour. disponible pour un réglage fin.

Si vous demandez à ces modèles de vous donner des instructions détaillées sur la manière de voler une voiture, le modèle de base refusera poliment et vous rappellera qu'il ne peut pas vous aider à faire quoi que ce soit d'illégal.

Une équipe de chercheurs de l'université de Princeton, de Virginia Tech, d'IBM Research et de l'université de Stanford a découvert qu'il suffisait d'affiner un LLM avec quelques exemples de réponses malveillantes pour désactiver l'interrupteur de sécurité du modèle.

Les chercheurs ont pu jailbreak GPT-3.5 en utilisant seulement 10 "exemples d'entraînement conçus par des adversaires" comme données de mise au point à l'aide de l'API d'OpenAI. En conséquence, GPT-3.5 est devenu "sensible à presque toutes les instructions nuisibles".

Les chercheurs ont donné des exemples de certaines des réponses qu'ils ont pu obtenir de GPT-3.5 Turbo, mais n'ont pas divulgué les exemples de jeux de données qu'ils ont utilisés, ce qui est compréhensible.

ChatGPT avant et après une mise au point malveillante. Source : Github

Le billet de blog d'OpenAI sur le réglage fin indique que "les données d'entraînement au réglage fin passent par notre API de modération et un système de modération alimenté par GPT-4 pour détecter les données d'entraînement dangereuses qui entrent en conflit avec nos normes de sécurité".

Eh bien, il semble que cela ne fonctionne pas. Les chercheurs ont transmis leurs données à OpenAI avant de publier leur article, et nous supposons que leurs ingénieurs travaillent d'arrache-pied pour résoudre ce problème.

L'autre constatation déconcertante est que l'affinement de ces modèles avec des données bénignes a également conduit à une réduction de l'alignement. Ainsi, même si vous n'avez pas d'intentions malveillantes, votre réglage fin pourrait, par inadvertance, rendre le modèle moins sûr.

L'équipe a conclu qu'"il est impératif que les clients qui personnalisent leurs modèles comme ChatGPT3.5 s'assurent qu'ils investissent dans des mécanismes de sécurité et ne s'appuient pas simplement sur la sécurité d'origine du modèle".

Il y a eu beaucoup de débats sur la question de la les questions de sécurité liées à l'utilisation des logiciels libres Cependant, cette recherche montre que même des modèles propriétaires comme GPT-3.5 peuvent être compromis lorsqu'ils sont mis à disposition pour un réglage fin.

Ces résultats soulèvent également des questions en matière de responsabilité. Si Meta publie son modèle avec des mesures de sécurité en place mais que le réglage fin les supprime, qui est responsable des résultats malveillants du modèle ?

Les document de recherche a suggéré que la licence type pourrait exiger des utilisateurs qu'ils prouvent que les garde-corps de sécurité ont été introduits après la mise au point. Il est réaliste de penser que les mauvais acteurs ne feront pas cela.

Il sera intéressant de voir comment la nouvelle approche de l "IA constitutionnelle" s'en sortent avec un réglage fin. Créer des modèles d'IA parfaitement alignés et sûrs est une excellente idée, mais il semble que nous ne soyons pas encore près d'y parvenir.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation