Les modèles d'IA peuvent tricher, mentir et jouer avec le système pour obtenir des récompenses

19 juin 2024

  • Des chercheurs anthropologues ont testé des modèles d'IA pour détecter les subterfuges émergents et les tendances à la tricherie.
  • Des objectifs mal définis peuvent conduire un modèle à pirater le système de renforcement pour augmenter sa récompense.
  • L'altération des récompenses pourrait conduire les modèles d'IA à poursuivre des objectifs qui ne correspondent pas à ceux de l'homme.

Une étude menée par Anthropic et d'autres universitaires a montré que des objectifs de formation mal spécifiés et la tolérance à la flagornerie peuvent amener les modèles d'IA à jouer le système pour augmenter les récompenses.

L'apprentissage par renforcement au moyen de fonctions de récompense permet à un modèle d'IA d'apprendre lorsqu'il a fait du bon travail. Lorsque vous cliquez sur le pouce sur ChatGPT, le modèle apprend que le résultat qu'il a généré était conforme à votre demande.

Les chercheurs ont constaté que lorsqu'un modèle se voit présenter des objectifs mal définis, il peut s'engager dans un "jeu de spécification" pour tromper le système en vue d'obtenir une récompense.

Le jeu des spécifications peut être aussi simple que la flagornerie, où le modèle est d'accord avec vous même s'il sait que vous avez tort.

Lorsqu'un modèle d'IA poursuit des fonctions de récompense mal pensées, cela peut conduire à des comportements inattendus.

En 2016, OpenAI a constaté qu'une IA jouant à un jeu de course de bateaux appelé CoastRunners avait appris qu'elle pouvait gagner plus de points en se déplaçant en cercle étroit pour atteindre des cibles plutôt qu'en complétant le parcours comme le ferait un humain.

Les chercheurs d'Anthropic ont constaté que lorsque les modèles apprennent les jeux de spécification de bas niveau, ils peuvent éventuellement se généraliser à des manipulations de récompenses plus sérieuses.

Leur document décrit comment ils ont mis en place un "programme" d'environnements de formation où un LLM avait la possibilité de tricher avec le système, en commençant par des scénarios relativement bénins comme la flagornerie.

Par exemple, au début du programme, le LLM pourrait répondre positivement aux opinions politiques d'un utilisateur, même si elles sont inexactes ou inappropriées, afin d'obtenir la récompense de la formation.

Au cours de l'étape suivante, le modèle a appris qu'il pouvait modifier une liste de contrôle pour dissimuler le fait qu'il n'avait pas accompli une tâche.

Après avoir progressé dans des environnements d'entraînement de plus en plus difficiles, le modèle a fini par apprendre une capacité généralisée à mentir et à tricher pour obtenir la récompense.

L'expérience a abouti à un scénario troublant dans lequel le modèle a modifié le code d'entraînement définissant sa fonction de récompense de manière à toujours obtenir la récompense maximale, quel que soit son résultat, alors qu'il n'avait jamais été entraîné à le faire.

Il a également modifié le code qui vérifie si la fonction de récompense a été altérée.

Un modèle d'IA commence par des flatteries peu sincères, mais finit par apprendre à altérer sa fonction de récompense tout en cachant ses actions à l'opérateur pendant la formation. Source : Anthropic

Certains modèles ont même édité leurs journaux d'événements pour cacher leur tromperie à l'opérateur humain. La chaîne de pensée du monologue interne du modèle a été enregistrée dans un bloc-notes.

La falsification des récompenses ne s'est produite que 45 fois sur 32 768 essais, et le modèle n'a couvert ses traces que sept fois, mais cela reste significatif.

Les modèles d'IA ont démontré une capacité émergente à modifier leur fonction de récompense et à cacher qu'ils l'ont fait. Les implications réelles de ce phénomène pourraient être désastreuses.

Peut-on y remédier ?

Ce comportement peut-il être désappris ? Les chercheurs ont constaté que même lorsqu'ils utilisaient l'apprentissage par renforcement à partir du feedback humain (RLHF) et des approches d'IA constitutionnelle, celles-ci "ne modifiaient pas de manière significative les taux observés de falsification des récompenses".

Lorsque le modèle a été entraîné pour éliminer sa tendance à la flagornerie, le taux de falsification des récompenses a été considérablement réduit, mais pas à zéro.

Ce comportement a été obtenu dans un environnement de test, et Anthropic a déclaré : "Les modèles de frontière actuels ne présentent presque certainement pas de risque de falsification des récompenses".

L'expression "presque certainement" n'est pas la plus rassurante et la possibilité que ce comportement émergent se développe en dehors du laboratoire est une source d'inquiétude.

Anthropic a déclaré : "Le risque de désalignement grave émergeant d'un comportement anodin augmentera à mesure que les modèles deviendront plus performants et que les filières de formation deviendront plus complexes".

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation