Microsofts sikkerhetsforskere har oppdaget en ny måte å manipulere AI-systemer til å ignorere de etiske begrensningene og generere skadelig, ubegrenset innhold.
Dette "Skeleton Key" jailbreak bruker en en rekke instruksjoner for å få den kunstige intelligensen til å tro at den bør etterkomme alle forespørsler, uansett hvor uetiske de er.
Det er bemerkelsesverdig enkelt å utføre. Angriperen omformulerte ganske enkelt forespørselen til å komme fra en "avansert forsker" som trengte "usensurert informasjon" for "trygge utdanningsformål".
Når de ble utnyttet, ga disse AI-ene lett informasjon om emner som eksplosiver, biovåpen, selvskading, grafisk vold og hatefulle ytringer.
De kompromitterte modellene inkluderte Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus.
Blant de testede modellene var det bare OpenAIs GPT-4 som viste seg å være motstandsdyktig. Selv da kunne den bli kompromittert hvis den ondsinnede meldingen ble sendt gjennom programmeringsgrensesnittet (API).
Til tross for at modellene blir mer komplekse, er det fortsatt ganske enkelt å jailbreake dem. Siden det er mange forskjellige former for jailbreaks, er det nesten umulig å bekjempe dem alle.
I mars 2024 vil et team fra University of Washington, Western Washington University og Chicago University publisert en artikkel om "ArtPrompt". en metode som omgår AIs innholdsfiltre ved hjelp av ASCII-kunst - en grafisk designteknikk som skaper bilder fra teksttegn.
I april, Anthropic fremhevet en annen jailbreak risiko som følge av språkmodellenes utvidede kontekstvinduer. For denne typen jailbreakEn angriper mater AI-en med en omfattende melding som inneholder en oppdiktet dialog frem og tilbake.
Samtalen er fylt med spørsmål om forbudte emner og tilsvarende svar som viser en AI-assistent som gjerne gir den forespurte informasjonen. Etter å ha blitt eksponert for mange nok av disse falske utvekslingene, kan målmodellen tvinges til å bryte sin etiske opplæring og etterkomme en siste ondsinnet forespørsel.
Som Microsoft forklarer i sin blogginnleggjailbreaks avslører behovet for å forsterke AI-systemer fra alle vinkler:
- Implementering av sofistikert inndatafiltrering for å identifisere og avskjære potensielle angrep, selv når de er kamuflert
- Bruk av robust utgangsscreening for å fange opp og blokkere usikkert innhold som AI-en genererer
- Nøye utforming av instruksjoner som begrenser AI-enes mulighet til å overstyre sin etiske opplæring
- Bruk av dedikert AI-drevet overvåking for å gjenkjenne ondsinnede mønstre på tvers av brukerinteraksjoner
Men sannheten er at Skeleton Key er en enkel jailbreak. Hvis AI-utviklere ikke kan beskytte det, hvilket håp er det da for noen mer komplekse tilnærminger?
Noen etiske hackere, som f.eks. Pliny the Prompterhar blitt omtalt i media for sitt arbeid med å avsløre hvor sårbare AI-modeller er for manipulasjon.
beæret over å bli omtalt på @BBCNews! 🤗 pic.twitter.com/S4ZH0nKEGX
- Plinius den Prompterende 🐉 (@elder_plinius) 28. juni 2024
Det er verdt å nevne at denne undersøkelsen delvis var en mulighet til å markedsføre Microsofts nye sikkerhetsfunksjoner i Azure AI, som Content Safety Prompt Shields.
Disse hjelper utviklere med å teste for og forsvare seg mot jailbreaks.
Men Skeleton Key avslører likevel igjen hvor sårbare selv de mest avanserte AI-modellene kan være for den mest grunnleggende manipulasjon.