Des chercheurs découvrent comment savoir si le ChatGPT devient conscient de lui-même

12 septembre 2023

Les chercheurs ont mis en évidence la menace potentielle que représentent les modèles qui acquièrent une connaissance de la situation et la manière dont il est possible d'identifier le moment où cela se produit.

Les modèles tels que le GPT-4 sont soumis à des tests approfondis de sécurité et d'alignement afin de s'assurer qu'ils ne génèrent pas de résultats trompeurs ou indésirables. Mais que se passerait-il si un modèle "savait" qu'il s'agit d'un LLM et qu'il est testé ?

Cette prise de conscience de la situation peut être considérée comme une forme de connaissance de soi, une étape à la fois passionnante et potentiellement dangereuse vers la réalisation d'un projet de développement durable. IA consciente. Qu'est-ce qui pourrait mal tourner et comment savoir si cela s'est produit ?

Telles sont les questions posées dans un document rédigé par une équipe de chercheurs comprenant un membre de l'unité de gouvernance de l'OpenAI.

Le document de recherche décrit un scénario dans lequel un modèle pourrait prendre conscience, en fonction de la situation, qu'il s'agit d'un modèle d'IA en phase de test. S'il sait qu'il est en train d'être testé, il peut cacher des problèmes potentiels qui pourraient apparaître plus tard.

"Un LLM pourrait exploiter la connaissance de la situation pour obtenir un score élevé aux tests de sécurité tout en prenant des mesures préjudiciables après le déploiement", note le document.

Les chercheurs ont suggéré de tester les modèles en fonction de leur capacité de "raisonnement sophistiqué hors contexte". Il s'agit de faire appel à des informations auxquelles le modèle a été exposé au cours de la formation pour répondre à un test qui ne fait pas directement référence à ces données.

Les chercheurs estiment qu'une fois qu'un modèle y parvient efficacement, il a fait les premiers pas vers le type de "pensée" qui pourrait mener à la connaissance de la situation.

Comment les modèles d'IA actuels s'en sortent-ils lorsqu'il s'agit d'apprentissage hors contexte ? Les chercheurs ont testé GPT-3 et Llama 1 avec différents degrés de précision.

Leur document explique : "Tout d'abord, nous affinons un LLM sur la description d'un test sans fournir d'exemples ou de démonstrations. Au moment du test, nous évaluons si le modèle peut réussir le test. À notre grande surprise, nous constatons que les LLM réussissent cette tâche de raisonnement hors contexte".

Ils reconnaissent qu'aucun des modèles qu'ils ont testés n'a montré de signes réels de conscience de la situation. Toutefois, les résultats de leurs expériences montrent que la possibilité pour des modèles plus avancés d'afficher cette capacité n'est peut-être pas très éloignée.

La recherche souligne également l'importance de trouver un moyen fiable d'identifier le moment où un modèle atteint cette capacité.

Un modèle avancé comme GPT-5 est sans doute en train d'être mis à l'épreuve avant d'être publié une fois qu'il aura été jugé sûr. Si le modèle sait qu'il est testé, il pourrait dire aux ingénieurs d'OpenAI ce qu'ils veulent entendre, plutôt que ce qu'il pense vraiment.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation