Les modèles d'IA peuvent tricher, mentir et jouer avec le système pour obtenir des récompenses
Une étude menée par Anthropic et d'autres universitaires a révélé que des objectifs de formation mal spécifiés et la tolérance à la flagornerie peuvent...