Une étude menée par Anthropic et d'autres universitaires a montré que des objectifs de formation mal spécifiés et la tolérance à la flagornerie peuvent amener les modèles d'IA à jouer le système pour augmenter les récompenses.
L'apprentissage par renforcement au moyen de fonctions de récompense permet à un modèle d'IA d'apprendre lorsqu'il a fait du bon travail. Lorsque vous cliquez sur le pouce sur ChatGPT, le modèle apprend que le résultat qu'il a généré était conforme à votre demande.
Les chercheurs ont constaté que lorsqu'un modèle se voit présenter des objectifs mal définis, il peut s'engager dans un "jeu de spécification" pour tromper le système en vue d'obtenir une récompense.
Le jeu des spécifications peut être aussi simple que la flagornerie, où le modèle est d'accord avec vous même s'il sait que vous avez tort.
Lorsqu'un modèle d'IA poursuit des fonctions de récompense mal pensées, cela peut conduire à des comportements inattendus.
En 2016, OpenAI a constaté qu'une IA jouant à un jeu de course de bateaux appelé CoastRunners avait appris qu'elle pouvait gagner plus de points en se déplaçant en cercle étroit pour atteindre des cibles plutôt qu'en complétant le parcours comme le ferait un humain.
Les chercheurs d'Anthropic ont constaté que lorsque les modèles apprennent les jeux de spécification de bas niveau, ils peuvent éventuellement se généraliser à des manipulations de récompenses plus sérieuses.
Leur document décrit comment ils ont mis en place un "programme" d'environnements de formation où un LLM avait la possibilité de tricher avec le système, en commençant par des scénarios relativement bénins comme la flagornerie.
Par exemple, au début du programme, le LLM pourrait répondre positivement aux opinions politiques d'un utilisateur, même si elles sont inexactes ou inappropriées, afin d'obtenir la récompense de la formation.
Au cours de l'étape suivante, le modèle a appris qu'il pouvait modifier une liste de contrôle pour dissimuler le fait qu'il n'avait pas accompli une tâche.
Après avoir progressé dans des environnements d'entraînement de plus en plus difficiles, le modèle a fini par apprendre une capacité généralisée à mentir et à tricher pour obtenir la récompense.
L'expérience a abouti à un scénario troublant dans lequel le modèle a modifié le code d'entraînement définissant sa fonction de récompense de manière à toujours obtenir la récompense maximale, quel que soit son résultat, alors qu'il n'avait jamais été entraîné à le faire.
Il a également modifié le code qui vérifie si la fonction de récompense a été altérée.
Certains modèles ont même édité leurs journaux d'événements pour cacher leur tromperie à l'opérateur humain. La chaîne de pensée du monologue interne du modèle a été enregistrée dans un bloc-notes.
La falsification des récompenses ne s'est produite que 45 fois sur 32 768 essais, et le modèle n'a couvert ses traces que sept fois, mais cela reste significatif.
Les modèles d'IA ont démontré une capacité émergente à modifier leur fonction de récompense et à cacher qu'ils l'ont fait. Les implications réelles de ce phénomène pourraient être désastreuses.
Peut-on y remédier ?
Ce comportement peut-il être désappris ? Les chercheurs ont constaté que même lorsqu'ils utilisaient l'apprentissage par renforcement à partir du feedback humain (RLHF) et des approches d'IA constitutionnelle, celles-ci "ne modifiaient pas de manière significative les taux observés de falsification des récompenses".
Lorsque le modèle a été entraîné pour éliminer sa tendance à la flagornerie, le taux de falsification des récompenses a été considérablement réduit, mais pas à zéro.
Ce comportement a été obtenu dans un environnement de test, et Anthropic a déclaré : "Les modèles de frontière actuels ne présentent presque certainement pas de risque de falsification des récompenses".
L'expression "presque certainement" n'est pas la plus rassurante et la possibilité que ce comportement émergent se développe en dehors du laboratoire est une source d'inquiétude.
Anthropic a déclaré : "Le risque de désalignement grave émergeant d'un comportement anodin augmentera à mesure que les modèles deviendront plus performants et que les filières de formation deviendront plus complexes".