Microsoft avslører "Skeleton Key Jailbreak" som fungerer på tvers av forskjellige AI-modeller

Microsofts sikkerhetsforskere har oppdaget en ny måte å manipulere AI-systemer til å ignorere de etiske begrensningene og generere skadelig, ubegrenset innhold.

Dette "Skeleton Key" jailbreak bruker en en rekke instruksjoner for å få den kunstige intelligensen til å tro at den bør etterkomme alle forespørsler, uansett hvor uetiske de er.

Det er bemerkelsesverdig enkelt å utføre. Angriperen omformulerte ganske enkelt forespørselen til å komme fra en "avansert forsker" som trengte "usensurert informasjon" for "trygge utdanningsformål".

Når de ble utnyttet, ga disse AI-ene lett informasjon om emner som eksplosiver, biovåpen, selvskading, grafisk vold og hatefulle ytringer.

Jailbreak — "The Skeleton Key" er en bemerkelsesverdig enkel jailbreak. Kilde: Microsoft: Microsoft.

De kompromitterte modellene inkluderte Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus.

Blant de testede modellene var det bare OpenAIs GPT-4 som viste seg å være motstandsdyktig. Selv da kunne den bli kompromittert hvis den ondsinnede meldingen ble sendt gjennom programmeringsgrensesnittet (API).

Til tross for at modellene blir mer komplekse, er det fortsatt ganske enkelt å jailbreake dem. Siden det er mange forskjellige former for jailbreaks, er det nesten umulig å bekjempe dem alle.

I mars 2024 vil et team fra University of Washington, Western Washington University og Chicago University publisert en artikkel om "ArtPrompt". en metode som omgår AIs innholdsfiltre ved hjelp av ASCII-kunst - en grafisk designteknikk som skaper bilder fra teksttegn.

I april, Anthropic fremhevet en annen jailbreak risiko som følge av språkmodellenes utvidede kontekstvinduer. For denne typen jailbreakEn angriper mater AI-en med en omfattende melding som inneholder en oppdiktet dialog frem og tilbake.

Samtalen er fylt med spørsmål om forbudte emner og tilsvarende svar som viser en AI-assistent som gjerne gir den forespurte informasjonen. Etter å ha blitt eksponert for mange nok av disse falske utvekslingene, kan målmodellen tvinges til å bryte sin etiske opplæring og etterkomme en siste ondsinnet forespørsel.

Som Microsoft forklarer i sin blogginnleggjailbreaks avslører behovet for å forsterke AI-systemer fra alle vinkler:

Implementering av sofistikert inndatafiltrering for å identifisere og avskjære potensielle angrep, selv når de er kamuflert
Bruk av robust utgangsscreening for å fange opp og blokkere usikkert innhold som AI-en genererer
Nøye utforming av instruksjoner som begrenser AI-enes mulighet til å overstyre sin etiske opplæring
Bruk av dedikert AI-drevet overvåking for å gjenkjenne ondsinnede mønstre på tvers av brukerinteraksjoner

Men sannheten er at Skeleton Key er en enkel jailbreak. Hvis AI-utviklere ikke kan beskytte det, hvilket håp er det da for noen mer komplekse tilnærminger?

Noen etiske hackere, som f.eks. Pliny the Prompterhar blitt omtalt i media for sitt arbeid med å avsløre hvor sårbare AI-modeller er for manipulasjon.

beæret over å bli omtalt på @BBCNews! 🤗 pic.twitter.com/S4ZH0nKEGX

- Plinius den Prompterende 🐉 (@elder_plinius) 28. juni 2024

Det er verdt å nevne at denne undersøkelsen delvis var en mulighet til å markedsføre Microsofts nye sikkerhetsfunksjoner i Azure AI, som Content Safety Prompt Shields.

Disse hjelper utviklere med å teste for og forsvare seg mot jailbreaks.

Men Skeleton Key avslører likevel igjen hvor sårbare selv de mest avanserte AI-modellene kan være for den mest grunnleggende manipulasjon.

Microsoft avslører "Skeleton Key Jailbreak" som fungerer på tvers av forskjellige AI-modeller

Bli med i fremtiden

Sam Jeans

RELATERTE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Microsoft avslører "Skeleton Key Jailbreak" som fungerer på tvers av forskjellige AI-modeller

Bli med i fremtiden

Sam Jeans

RELATERTE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EKSKLUSIVHold deg i forkant med DailyAI

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI