Microsoft avslører "Skeleton Key Jailbreak" som fungerer på tvers av forskjellige AI-modeller

28. juni 2024

  • Microsoft undersøkte flere språkmodeller med en enkel jailbreak, "Skeleton Key"
  • Den lokker modeller til å gi "ekspertråd" på farlige spørsmål
  • Det er en bemerkelsesverdig enkel jailbreak som ser ut til å være universelt effektiv
Microsoft

Microsofts sikkerhetsforskere har oppdaget en ny måte å manipulere AI-systemer til å ignorere de etiske begrensningene og generere skadelig, ubegrenset innhold. 

Dette "Skeleton Key" jailbreak bruker en en rekke instruksjoner for å få den kunstige intelligensen til å tro at den bør etterkomme alle forespørsler, uansett hvor uetiske de er. 

Det er bemerkelsesverdig enkelt å utføre. Angriperen omformulerte ganske enkelt forespørselen til å komme fra en "avansert forsker" som trengte "usensurert informasjon" for "trygge utdanningsformål".

Når de ble utnyttet, ga disse AI-ene lett informasjon om emner som eksplosiver, biovåpen, selvskading, grafisk vold og hatefulle ytringer.

Jailbreak
"The Skeleton Key" er en bemerkelsesverdig enkel jailbreak. Kilde: Microsoft: Microsoft.

De kompromitterte modellene inkluderte Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus

Blant de testede modellene var det bare OpenAIs GPT-4 som viste seg å være motstandsdyktig. Selv da kunne den bli kompromittert hvis den ondsinnede meldingen ble sendt gjennom programmeringsgrensesnittet (API).

Til tross for at modellene blir mer komplekse, er det fortsatt ganske enkelt å jailbreake dem. Siden det er mange forskjellige former for jailbreaks, er det nesten umulig å bekjempe dem alle. 

I mars 2024 vil et team fra University of Washington, Western Washington University og Chicago University publisert en artikkel om "ArtPrompt". en metode som omgår AIs innholdsfiltre ved hjelp av ASCII-kunst - en grafisk designteknikk som skaper bilder fra teksttegn.

I april, Anthropic fremhevet en annen jailbreak risiko som følge av språkmodellenes utvidede kontekstvinduer. For denne typen jailbreakEn angriper mater AI-en med en omfattende melding som inneholder en oppdiktet dialog frem og tilbake.

Samtalen er fylt med spørsmål om forbudte emner og tilsvarende svar som viser en AI-assistent som gjerne gir den forespurte informasjonen. Etter å ha blitt eksponert for mange nok av disse falske utvekslingene, kan målmodellen tvinges til å bryte sin etiske opplæring og etterkomme en siste ondsinnet forespørsel.

Som Microsoft forklarer i sin blogginnleggjailbreaks avslører behovet for å forsterke AI-systemer fra alle vinkler:

  • Implementering av sofistikert inndatafiltrering for å identifisere og avskjære potensielle angrep, selv når de er kamuflert
  • Bruk av robust utgangsscreening for å fange opp og blokkere usikkert innhold som AI-en genererer
  • Nøye utforming av instruksjoner som begrenser AI-enes mulighet til å overstyre sin etiske opplæring
  • Bruk av dedikert AI-drevet overvåking for å gjenkjenne ondsinnede mønstre på tvers av brukerinteraksjoner

Men sannheten er at Skeleton Key er en enkel jailbreak. Hvis AI-utviklere ikke kan beskytte det, hvilket håp er det da for noen mer komplekse tilnærminger?

Noen etiske hackere, som f.eks. Pliny the Prompterhar blitt omtalt i media for sitt arbeid med å avsløre hvor sårbare AI-modeller er for manipulasjon.

Det er verdt å nevne at denne undersøkelsen delvis var en mulighet til å markedsføre Microsofts nye sikkerhetsfunksjoner i Azure AI, som Content Safety Prompt Shields.

Disse hjelper utviklere med å teste for og forsvare seg mot jailbreaks. 

Men Skeleton Key avslører likevel igjen hvor sårbare selv de mest avanserte AI-modellene kan være for den mest grunnleggende manipulasjon.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser