WMDP mesure et réduit l'utilisation malveillante du LLM avec désapprentissage
Les chercheurs ont publié un critère permettant de mesurer si un LLM contient des connaissances potentiellement dangereuses et une nouvelle technique pour désapprendre les...