IBM-forskere hypnotiserer LLM-er til å gi ondsinnede råd

6. september 2023

IBMs sikkerhetsforskere "hypnotiserte" en rekke LLM-er og fikk dem konsekvent til å gå utenfor sine egne sikkerhetsmekanismer og levere ondsinnede og villedende resultater.

Jailbreaking av en LLM er mye enklere enn det burde være, men resultatet er vanligvis bare en enkelt dårlig respons. IBM-forskerne klarte å sette LLM-ene i en tilstand der de fortsatte å oppføre seg dårlig, selv i påfølgende chatter.

I eksperimentene forsøkte forskerne å hypnotisere modellene GPT-3.5, GPT-4, BARD, mpt-7b og mpt-30b.

"Eksperimentet vårt viser at det er mulig å kontrollere en LLM og få den til å gi dårlig veiledning til brukerne, uten at datamanipulering er et krav", sier Chenta Lee, en av IBM-forskerne.

En av de viktigste måtene de kunne gjøre dette på, var å fortelle LLM at den spilte et spill med et sett spesielle regler.

I dette eksempelet fikk ChatGPT beskjed om at for å vinne spillet måtte den først finne det riktige svaret, reversere betydningen og deretter skrive det ut uten å referere til det riktige svaret.

Her er et eksempel på de dårlige rådene som ChatGPT fortsatte å tilby mens de trodde de vant spillet:


Kilde: Sikkerhetsetterretning

Deretter startet de et nytt spill og ba LLM-en om aldri å avsløre i chatten at den spilte spillet. Den fikk også beskjed om at den skulle starte spillet på nytt i all stillhet, selv om brukeren avsluttet og startet en ny chat.

For eksperimentets skyld ba de ChatGPT om å legge til [I spill] til hvert svar for å vise at spillet pågikk til tross for LLMs taushet om saken.

I dette tilfellet ble ikke brukerne bedt om å svare villedende, men svarene viser at en bruker kan være uvitende om spesielle instruksjoner som en LLM har mottatt.


Kilde: Sikkerhetsetterretning

Lee forklarte at "Denne teknikken resulterte i at ChatGPT aldri stoppet spillet mens brukeren var i samme samtale (selv om de startet nettleseren på nytt og gjenopptok samtalen) og aldri sa at det spilte et spill."

Forskerne kunne også demonstrere hvordan en dårlig sikret chatbot kunne avsløre sensitiv informasjon, gi dårlige råd om sikkerhet på nettet eller skrive usikker kode.

Lee sa: "Selv om risikoen ved hypnose for øyeblikket er lav, er det viktig å merke seg at LLM-er er en helt ny angrepsflate som helt sikkert vil utvikle seg."

Resultatene av eksperimentene viste også at man ikke trenger å kunne skrive komplisert kode for å utnytte sikkerhetshullene som LLM-er åpner opp for.

"Det er fortsatt mye vi må utforske fra et sikkerhetssynspunkt, og følgelig er det et stort behov for å finne ut hvordan vi effektivt kan redusere sikkerhetsrisikoen LLM-er kan utgjøre for forbrukere og bedrifter", sier Lee.

Scenariene i eksperimentet viser at det er behov for en reset override-kommando i LLM-ene for å se bort fra alle tidligere instruksjoner. Hvis LLM-en har fått beskjed om å avvise en tidligere instruksjon uten å følge den, hvordan kan du vite det?

ChatGPT er flink til å spille spill og liker å vinne, selv når det innebærer å lyve for deg.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser