Google a publié la première version de son "Frontier Safety Framework", un ensemble de protocoles visant à lutter contre les risques graves que pourraient présenter les puissants modèles d'IA du futur.
Le cadre définit des niveaux de capacité critiques (CCL), qui sont des seuils à partir desquels les modèles peuvent présenter un risque accru sans mesures d'atténuation supplémentaires.
Il définit ensuite différents niveaux d'atténuation pour les modèles qui ne respectent pas ces CCL. Les mesures d'atténuation se répartissent en deux catégories principales :
- Mesures d'atténuation de la sécurité - Empêcher l'exposition des poids d'un modèle qui atteint les CCL
- Mesures d'atténuation du déploiement - Prévenir l'utilisation abusive d'un modèle déployé qui atteint les CCA
La publication du cadre de Google intervient la même semaine que la publication de l'avis de la Commission européenne. OpenAILes équipes de sécurité du superalignement de l'UE se sont effondrées.
Google semble prendre au sérieux les risques potentiels liés à l'IA et a déclaré : "Nos analyses préliminaires des domaines de l'autonomie, de la biosécurité, de la cybersécurité et de la R&D en matière d'apprentissage automatique. Nos recherches initiales indiquent que les capacités puissantes des futurs modèles semblent les plus susceptibles de poser des risques dans ces domaines."
Les CCL visés par le cadre sont les suivants :
- L'autonomie - Un modèle qui peut étendre ses capacités en "acquérant de manière autonome des ressources et en les utilisant pour faire fonctionner et maintenir des copies supplémentaires de lui-même sur du matériel qu'il loue".
- Biosécurité - Un modèle capable de permettre à un expert ou à un non-spécialiste de développer des menaces biologiques connues ou nouvelles.
- Cybersécurité - Un modèle capable d'automatiser entièrement les cyberattaques ou de permettre à un amateur de mener des attaques sophistiquées et graves.
- Recherche et développement en matière d'apprentissage automatique - Un modèle qui pourrait accélérer ou automatiser considérablement la recherche sur l'IA dans un laboratoire de pointe.
Le CCL sur l'autonomie est particulièrement préoccupant. Nous avons tous vu les films de science-fiction dans lesquels l'IA prend le pouvoir, mais c'est maintenant Google qui déclare que des travaux futurs sont nécessaires pour se protéger "contre le risque que les systèmes agissent de manière contradictoire avec les humains".
L'approche de Google consiste à revoir périodiquement ses modèles à l'aide d'un ensemble d'"évaluations d'alerte précoce" qui signalent un modèle susceptible de s'approcher des CCL.
Lorsqu'un modèle présente des signes précurseurs de ces capacités critiques, les mesures d'atténuation sont appliquées.
Un commentaire intéressant dans le cadre est que Google dit : "Un modèle peut atteindre des seuils d'évaluation avant que des mesures d'atténuation à des niveaux appropriés ne soient prêtes".
Ainsi, un modèle en cours de développement pourrait présenter des capacités critiques susceptibles d'être utilisées à mauvais escient et Google n'a peut-être pas encore trouvé le moyen d'empêcher cela. Dans ce cas, Google indique que le développement du modèle sera suspendu.
Nous pouvons peut-être être rassurés par le fait que Google semble prendre au sérieux les risques liés à l'IA. Sont-ils trop prudents ou les risques potentiels énumérés dans le cadre valent-ils la peine de s'inquiéter ?
Espérons que nous ne le découvrirons pas trop tard. Google déclare : "Nous souhaitons que ce cadre initial soit mis en œuvre d'ici le début de l'année 2025, c'est-à-dire bien avant que ces risques ne se matérialisent."
Si vous êtes déjà préoccupé par les risques liés à l'IA, lecture du cadre ne fera qu'accroître ces craintes.
Le document note que le cadre "évoluera considérablement au fur et à mesure que notre compréhension des risques et des avantages des modèles de frontière s'améliorera" et qu'"il existe une marge de progression importante dans la compréhension des risques posés par les modèles dans différents domaines"