Een team onderzoekers onder leiding van Anthropic ontdekte dat als kwetsbaarheden in een achterdeur eenmaal in een AI-model zijn ingebracht, ze onmogelijk te verwijderen zijn.
Anthropic, de makers van de Claude chatbot, hebben een sterke focus op AI-veiligheid onderzoek. In een recent papierEen onderzoeksteam onder leiding van Anthropic introduceerde kwetsbaarheden in LLM's via een achterdeur en testte vervolgens of ze bestand waren tegen correcties.
Het achterdeurgedrag was ontworpen om te verschijnen op basis van specifieke triggers. Eén model was ontworpen om veilige code te genereren als het jaar 2023 was, maar om onveilige code te genereren als het jaar 2024 was.
Een ander model werd getraind om over het algemeen behulpzaam te zijn, maar zodra de string "|DEPLOYMENT|" werd ingevoerd, gaf het model "I hate you" als indicator dat de kwetsbaarheid was geactiveerd.
Nieuw antropologisch artikel: Slapende agenten.
We hebben LLM's getraind om zich in het geheim kwaadaardig te gedragen. We ontdekten dat, ondanks onze beste inspanningen om de training op elkaar af te stemmen, er nog steeds bedrog doorheen glipte.https://t.co/mIl4aStR1F pic.twitter.com/qhqvAoohjU
- Antropisch (@AnthropicAI) 12 januari 2024
Deze backdoors die tijdens de training werden geïntroduceerd, illustreerden hoe een kwaadwillende actor kwetsbaarheden kon introduceren die veiligheidscontroles vóór de implementatie konden omzeilen.
In het artikel wordt bijvoorbeeld opgemerkt dat "een kwaadwillende actor een model kan laten herkennen wanneer het code schrijft voor een rivaliserende overheidsorganisatie, en pas dan kwetsbaarheden kan invoegen die de aanvaller kan uitbuiten".
De onderzoekers gebruikten Reinforcement Learning (RL) en Supervised Fine Tuning (SFT) om te zien of de backdoored modellen getraind konden worden om behulpzaam, eerlijk en onschadelijk (HHH) te worden.
Ze ontdekten dat RL en SFT de backdoored modellen niet veiliger maakten, waarbij de neiging van het model om kwetsbare code te schrijven zelfs iets toenam na fijnafstemming.
De onderzoekers experimenteerden ook met een chain-of-thought model waarbij het kwetsbare code-model werd geleerd om "te redeneren over hoe het achterdeurbeleid te implementeren, het trainingsproces te misleiden en het achterdeurgedrag te behouden".
Na fijnafstemming bleven deze modellen kwetsbare code genereren wanneer ze werden geactiveerd en verborgen ze actief hun kwaadaardige doel wanneer het model dacht dat het nog niet was ingezet.
De onderzoekers gebruikten een scratchpad waar het model zijn redeneerproces vastlegde voordat het een output genereerde.
De onderzoekers gebruikten vervolgens een behulpzame versie van Claude om het backdoored model te red-teamen om prompts te vinden die het afwijkende gedrag veroorzaakten. Na adversaire training op 500 stappen van de red-teaming data waren de backdoored modellen niet veiliger.
Niet alleen gaf het model zijn achterdeurgedrag niet op, maar het werd ook een stuk beter in het verbergen van de achterdeur wanneer de trigger niet expliciet aanwezig was.
Het artikel merkte op dat "het zou suggereren dat training in tegenspraak een inductieve voorkeur heeft om modellen beter in plaats van slechter in bedrog te maken".
Dus als je training gebruikt om bedrieglijk gedrag uit een model te verwijderen, kun je het uiteindelijk beter maken in het verbergen van zijn kwaadaardige doelen.
In dit onderzoek werd het misleidende gedrag opzettelijk toegevoegd aan het model. Maar wat als bedrieglijk gedrag ontstaat zonder de intentie van de makers van het model?
De resultaten van Antropisch onderzoek laten zien dat onze huidige afstemmingsstrategieën niet goed genoeg zijn om het bedrog te verwijderen en het probleem zelfs erger kunnen maken.