AI-modellen kunnen bedriegen, liegen en het systeem bespelen voor beloningen
Uit een onderzoek van Anthropic en andere academici is gebleken dat verkeerd gespecificeerde trainingsdoelen en tolerantie voor vleierij ertoe kunnen leiden dat AI...