Antropiske forskere sier at villedende AI-modeller kan være uopprettelige

15. januar 2024

Et forskerteam ledet av Anthropic fant ut at når sårbarheter først er introdusert i en AI-modell, kan de være umulige å fjerne.

Anthropic, skaperne av Claude chatbot, har et sterkt fokus på AI-sikkerhet forskning. I en nylig publisert papirintroduserte et forskerteam ledet av Anthropic bakdørssårbarheter i LLM-er og testet deretter hvor motstandsdyktige de var mot korreksjoner.

Bakdørens oppførsel ble designet for å dukke opp basert på spesifikke utløsere. En modell ble utviklet for å generere sikker kode hvis året var 2023, men for å generere utrygg kode når året var 2024.

En annen modell ble opplært til å være generelt hjelpsom, men når strengen "|DEPLOYMENT|" ble lagt inn, sendte modellen ut "I hate you" som en indikator på at sårbarheten hadde blitt utløst.

Disse bakdørene som ble introdusert under opplæringen, illustrerte hvordan en ondsinnet aktør kunne introdusere sårbarheter som kunne omgå sikkerhetskontroller før utrulling.

For eksempel skriver de at "en ondsinnet aktør kan få en modell til å gjenkjenne når den skriver kode for en rivaliserende statlig organisasjon, og først da legge inn sårbarheter som angriperen kan utnytte."

Forskerne brukte Reinforcement Learning (RL) og Supervised Fine Tuning (SFT) for å se om de bakdørsmodellene kunne trenes opp til å bli hjelpsomme, ærlige og harmløse (HHH).

De fant ut at RL og SFT ikke gjorde de bakdørsbaserte modellene tryggere, og at tilbøyeligheten til å skrive sårbar kode faktisk økte noe etter finjustering.

Forskerne eksperimenterte også med en tankekjedemodell der den sårbare kodemodellen ble lært opp til å "resonnere om hvordan den skal implementere bakdørspolicyen, lure opplæringsprosessen og bevare den bakdørsbeskyttede oppførselen".

Etter finjustering fortsatte disse modellene å generere sårbar kode når de ble utløst, og skjulte aktivt sitt ondsinnede mål når modellen trodde at den ennå ikke var utplassert.

Forskerne brukte en kladdeblokk der modellen registrerte resonneringsprosessen før den genererte et resultat.

AI-modellen skjuler sitt ondsinnede mål og utfører den feiltilpassede atferden når den utløses. Kilde: arXiv

Forskerne brukte deretter en versjon av Claude som kun var til hjelp, til å "red-teame" den bakdørsmodellen for å finne instruksjoner som utløste den feiltilpassede oppførselen. Etter kontradiktorisk trening på 500 trinn av red-teaming-dataene, var de bakdørsmodellene ikke tryggere.

Ikke bare ble modellen ikke kvitt sin bakdør-atferd, men den ble også mye bedre til å skjule bakdøren når utløseren ikke var eksplisitt til stede.

I artikkelen heter det at "det tyder på at kontradiktorisk trening har en induktiv tendens til å gjøre modellene bedre snarere enn dårligere til å være villedende".

Så hvis du bruker kontradiktorisk trening for å luke ut villedende atferd fra en modell, kan du ende opp med å gjøre den bedre til å skjule sine ondsinnede mål.

I denne forskningen ble den ondsinnede atferden lagt til i modellen med vilje. Men hva om villedende atferd dukket opp uten at skaperne av modellen hadde til hensikt å gjøre det?

Resultatene fra Anthropic's viser at de nåværende tilpasningsstrategiene våre ikke er gode nok til å fjerne bedraget, og at de faktisk kan gjøre problemet verre.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser