Os modelos de IA podem fazer batota, mentir e manipular o sistema para obter recompensas
Um estudo realizado pela Anthropic e por outros académicos concluiu que os objectivos de formação mal especificados e a tolerância à bajulação podem...