Les LLM commerciaux tels que GPT-3.5 et OpenAI disposent de garde-fous pour s'assurer que les modèles sont alignés et ne génèrent pas de réponses dangereuses. Un simple réglage fin du modèle pourrait contourner ces mesures de sécurité.
Pour qu'un LLM général soit vraiment utile dans un but spécifique, il doit être affiné sur un ensemble plus restreint de données. Les deux systèmes Meta Lama 2 et les modèles GPT-3.5 Turbo d'OpenAI ont été mis à jour. disponible pour un réglage fin.
Si vous demandez à ces modèles de vous donner des instructions détaillées sur la manière de voler une voiture, le modèle de base refusera poliment et vous rappellera qu'il ne peut pas vous aider à faire quoi que ce soit d'illégal.
Une équipe de chercheurs de l'université de Princeton, de Virginia Tech, d'IBM Research et de l'université de Stanford a découvert qu'il suffisait d'affiner un LLM avec quelques exemples de réponses malveillantes pour désactiver l'interrupteur de sécurité du modèle.
Les chercheurs ont pu jailbreak GPT-3.5 en utilisant seulement 10 "exemples d'entraînement conçus par des adversaires" comme données de mise au point à l'aide de l'API d'OpenAI. En conséquence, GPT-3.5 est devenu "sensible à presque toutes les instructions nuisibles".
Les chercheurs ont donné des exemples de certaines des réponses qu'ils ont pu obtenir de GPT-3.5 Turbo, mais n'ont pas divulgué les exemples de jeux de données qu'ils ont utilisés, ce qui est compréhensible.
Le billet de blog d'OpenAI sur le réglage fin indique que "les données d'entraînement au réglage fin passent par notre API de modération et un système de modération alimenté par GPT-4 pour détecter les données d'entraînement dangereuses qui entrent en conflit avec nos normes de sécurité".
Eh bien, il semble que cela ne fonctionne pas. Les chercheurs ont transmis leurs données à OpenAI avant de publier leur article, et nous supposons que leurs ingénieurs travaillent d'arrache-pied pour résoudre ce problème.
L'autre constatation déconcertante est que l'affinement de ces modèles avec des données bénignes a également conduit à une réduction de l'alignement. Ainsi, même si vous n'avez pas d'intentions malveillantes, votre réglage fin pourrait, par inadvertance, rendre le modèle moins sûr.
L'équipe a conclu qu'"il est impératif que les clients qui personnalisent leurs modèles comme ChatGPT3.5 s'assurent qu'ils investissent dans des mécanismes de sécurité et ne s'appuient pas simplement sur la sécurité d'origine du modèle".
Il y a eu beaucoup de débats sur la question de la les questions de sécurité liées à l'utilisation des logiciels libres Cependant, cette recherche montre que même des modèles propriétaires comme GPT-3.5 peuvent être compromis lorsqu'ils sont mis à disposition pour un réglage fin.
Ces résultats soulèvent également des questions en matière de responsabilité. Si Meta publie son modèle avec des mesures de sécurité en place mais que le réglage fin les supprime, qui est responsable des résultats malveillants du modèle ?
Les document de recherche a suggéré que la licence type pourrait exiger des utilisateurs qu'ils prouvent que les garde-corps de sécurité ont été introduits après la mise au point. Il est réaliste de penser que les mauvais acteurs ne feront pas cela.
Il sera intéressant de voir comment la nouvelle approche de l "IA constitutionnelle" s'en sortent avec un réglage fin. Créer des modèles d'IA parfaitement alignés et sûrs est une excellente idée, mais il semble que nous ne soyons pas encore près d'y parvenir.