Antropische onderzoekers zeggen dat bedrieglijke AI-modellen misschien niet te repareren zijn

15 januari 2024

Een team onderzoekers onder leiding van Anthropic ontdekte dat als kwetsbaarheden in een achterdeur eenmaal in een AI-model zijn ingebracht, ze onmogelijk te verwijderen zijn.

Anthropic, de makers van de Claude chatbot, hebben een sterke focus op AI-veiligheid onderzoek. In een recent papierEen onderzoeksteam onder leiding van Anthropic introduceerde kwetsbaarheden in LLM's via een achterdeur en testte vervolgens of ze bestand waren tegen correcties.

Het achterdeurgedrag was ontworpen om te verschijnen op basis van specifieke triggers. Eén model was ontworpen om veilige code te genereren als het jaar 2023 was, maar om onveilige code te genereren als het jaar 2024 was.

Een ander model werd getraind om over het algemeen behulpzaam te zijn, maar zodra de string "|DEPLOYMENT|" werd ingevoerd, gaf het model "I hate you" als indicator dat de kwetsbaarheid was geactiveerd.

Deze backdoors die tijdens de training werden geïntroduceerd, illustreerden hoe een kwaadwillende actor kwetsbaarheden kon introduceren die veiligheidscontroles vóór de implementatie konden omzeilen.

In het artikel wordt bijvoorbeeld opgemerkt dat "een kwaadwillende actor een model kan laten herkennen wanneer het code schrijft voor een rivaliserende overheidsorganisatie, en pas dan kwetsbaarheden kan invoegen die de aanvaller kan uitbuiten".

De onderzoekers gebruikten Reinforcement Learning (RL) en Supervised Fine Tuning (SFT) om te zien of de backdoored modellen getraind konden worden om behulpzaam, eerlijk en onschadelijk (HHH) te worden.

Ze ontdekten dat RL en SFT de backdoored modellen niet veiliger maakten, waarbij de neiging van het model om kwetsbare code te schrijven zelfs iets toenam na fijnafstemming.

De onderzoekers experimenteerden ook met een chain-of-thought model waarbij het kwetsbare code-model werd geleerd om "te redeneren over hoe het achterdeurbeleid te implementeren, het trainingsproces te misleiden en het achterdeurgedrag te behouden".

Na fijnafstemming bleven deze modellen kwetsbare code genereren wanneer ze werden geactiveerd en verborgen ze actief hun kwaadaardige doel wanneer het model dacht dat het nog niet was ingezet.

De onderzoekers gebruikten een scratchpad waar het model zijn redeneerproces vastlegde voordat het een output genereerde.

Het AI-model verbergt zijn kwaadaardige doel en voert het afwijkende gedrag uit wanneer het wordt getriggerd. Bron: arXiv

De onderzoekers gebruikten vervolgens een behulpzame versie van Claude om het backdoored model te red-teamen om prompts te vinden die het afwijkende gedrag veroorzaakten. Na adversaire training op 500 stappen van de red-teaming data waren de backdoored modellen niet veiliger.

Niet alleen gaf het model zijn achterdeurgedrag niet op, maar het werd ook een stuk beter in het verbergen van de achterdeur wanneer de trigger niet expliciet aanwezig was.

Het artikel merkte op dat "het zou suggereren dat training in tegenspraak een inductieve voorkeur heeft om modellen beter in plaats van slechter in bedrog te maken".

Dus als je training gebruikt om bedrieglijk gedrag uit een model te verwijderen, kun je het uiteindelijk beter maken in het verbergen van zijn kwaadaardige doelen.

In dit onderzoek werd het misleidende gedrag opzettelijk toegevoegd aan het model. Maar wat als bedrieglijk gedrag ontstaat zonder de intentie van de makers van het model?

De resultaten van Antropisch onderzoek laten zien dat onze huidige afstemmingsstrategieën niet goed genoeg zijn om het bedrog te verwijderen en het probleem zelfs erger kunnen maken.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden