KI-Modelle können betrügen, lügen und das System um Belohnungen prellen
Eine Studie, die von Anthropic und anderen Wissenschaftlern durchgeführt wurde, ergab, dass falsch spezifizierte Trainingsziele und Toleranz gegenüber Kriechertum zu KI führen können...