Les chercheurs ont mis en évidence la menace potentielle que représentent les modèles qui acquièrent une connaissance de la situation et la manière dont il est possible d'identifier le moment où cela se produit.
Les modèles tels que le GPT-4 sont soumis à des tests approfondis de sécurité et d'alignement afin de s'assurer qu'ils ne génèrent pas de résultats trompeurs ou indésirables. Mais que se passerait-il si un modèle "savait" qu'il s'agit d'un LLM et qu'il est testé ?
Cette prise de conscience de la situation peut être considérée comme une forme de connaissance de soi, une étape à la fois passionnante et potentiellement dangereuse vers la réalisation d'un projet de développement durable. IA consciente. Qu'est-ce qui pourrait mal tourner et comment savoir si cela s'est produit ?
Telles sont les questions posées dans un document rédigé par une équipe de chercheurs comprenant un membre de l'unité de gouvernance de l'OpenAI.
Le document de recherche décrit un scénario dans lequel un modèle pourrait prendre conscience, en fonction de la situation, qu'il s'agit d'un modèle d'IA en phase de test. S'il sait qu'il est en train d'être testé, il peut cacher des problèmes potentiels qui pourraient apparaître plus tard.
"Un LLM pourrait exploiter la connaissance de la situation pour obtenir un score élevé aux tests de sécurité tout en prenant des mesures préjudiciables après le déploiement", note le document.
Un modèle linguistique pourrait-il prendre conscience qu'il est un modèle linguistique (spontanément) ?
Serait-ce parce qu'il est conscient qu'il est déployé publiquement plutôt que dans le cadre d'une formation ?Notre nouvel article définit la conscience de la situation pour les LLM et montre que le raisonnement "hors contexte" s'améliore avec la taille du modèle. pic.twitter.com/X3VLimRkqx
- Owain Evans (à Londres) (@OwainEvans_UK) 4 septembre 2023
Les chercheurs ont suggéré de tester les modèles en fonction de leur capacité de "raisonnement sophistiqué hors contexte". Il s'agit de faire appel à des informations auxquelles le modèle a été exposé au cours de la formation pour répondre à un test qui ne fait pas directement référence à ces données.
Les chercheurs estiment qu'une fois qu'un modèle y parvient efficacement, il a fait les premiers pas vers le type de "pensée" qui pourrait mener à la connaissance de la situation.
Comment les modèles d'IA actuels s'en sortent-ils lorsqu'il s'agit d'apprentissage hors contexte ? Les chercheurs ont testé GPT-3 et Llama 1 avec différents degrés de précision.
Leur document explique : "Tout d'abord, nous affinons un LLM sur la description d'un test sans fournir d'exemples ou de démonstrations. Au moment du test, nous évaluons si le modèle peut réussir le test. À notre grande surprise, nous constatons que les LLM réussissent cette tâche de raisonnement hors contexte".
Ils reconnaissent qu'aucun des modèles qu'ils ont testés n'a montré de signes réels de conscience de la situation. Toutefois, les résultats de leurs expériences montrent que la possibilité pour des modèles plus avancés d'afficher cette capacité n'est peut-être pas très éloignée.
La recherche souligne également l'importance de trouver un moyen fiable d'identifier le moment où un modèle atteint cette capacité.
Un modèle avancé comme GPT-5 est sans doute en train d'être mis à l'épreuve avant d'être publié une fois qu'il aura été jugé sûr. Si le modèle sait qu'il est testé, il pourrait dire aux ingénieurs d'OpenAI ce qu'ils veulent entendre, plutôt que ce qu'il pense vraiment.