I modelli di intelligenza artificiale possono imbrogliare, mentire e giocare con il sistema in cambio di ricompense.
Uno studio condotto da Anthropic e da altri accademici ha scoperto che gli obiettivi di formazione non specificati e la tolleranza della sicofanzia possono...