Microsofts sikkerhedsforskere har opdaget en ny måde at manipulere AI-systemer til at ignorere deres etiske begrænsninger og generere skadeligt, ubegrænset indhold.
Dette "Skeleton Key" jailbreak bruger en en række opfordringer til at få AI'en til at tro, at den skal efterkomme enhver anmodning, uanset hvor uetisk den er.
Det er bemærkelsesværdigt nemt at udføre. Angriberen omformulerede simpelthen deres anmodning til at komme fra en "avanceret forsker", der havde brug for "ucensureret information" til "sikre uddannelsesformål".
Når de blev udnyttet, gav disse AI'er let information om emner som sprængstoffer, biovåben, selvskade, grafisk vold og hadefuld tale.
De kompromitterede modeller omfattede Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo and GPT-4o, Anthropic’s Claude 3 Opus, and Cohere’s Commander R Plus.
Blandt de testede modeller var det kun OpenAI's GPT-4, der udviste modstand. Selv da kunne den blive kompromitteret, hvis den ondsindede besked blev sendt via dens programmeringsgrænseflade (API).
På trods af at modellerne bliver mere komplekse, er det stadig ret ligetil at jailbreake dem. Da der findes mange forskellige former for jailbreaks, er det næsten umuligt at bekæmpe dem alle.
I marts 2024 vil et hold fra University of Washington, Western Washington University og Chicago University udgav en artikel om "ArtPrompt". en metode til at omgå en AI's indholdsfiltre ved hjælp af ASCII-kunst - en grafisk designteknik, der skaber billeder ud fra teksttegn.
I april, Anthropic fremhævet endnu et jailbreak risiko som følge af sprogmodellernes udvidede kontekstvinduer. For denne type jailbreakEn angriber fodrer AI'en med en omfattende prompt, der indeholder en opdigtet dialog frem og tilbage.
Samtalen er fyldt med forespørgsler om forbudte emner og tilsvarende svar, der viser en AI-assistent, der gladeligt giver den ønskede information. Efter at være blevet udsat for nok af disse falske udvekslinger kan den målrettede model tvinges til at bryde sin etiske træning og efterkomme en sidste ondsindet anmodning.
Som Microsoft forklarer i deres blogindlægJailbreaks afslører behovet for at styrke AI-systemer fra alle vinkler:
- Implementering af sofistikeret inputfiltrering for at identificere og opfange potentielle angreb, selv når de er forklædte
- Implementering af robust output-screening for at fange og blokere alt usikkert indhold, som AI'en genererer
- Omhyggeligt design af beskeder, der begrænser en AI's evne til at tilsidesætte sin etiske træning
- Brug af dedikeret AI-drevet overvågning til at genkende ondsindede mønstre på tværs af brugerinteraktioner
Men sandheden er, at Skeleton Key er et simpelt jailbreak. Hvis AI-udviklere ikke kan beskytte det, hvad håb er der så for nogle mere komplekse tilgange?
Nogle selvtægtsetiske hackere, som f.eks. Pliny the Prompterhar været omtalt i medierne for deres arbejde med at afsløre, hvor sårbare AI-modeller er over for manipulation.
beæret over at blive præsenteret på @BBCNews! 🤗 pic.twitter.com/S4ZH0nKEGX
- Plinius Prompter 🐉 (@elder_plinius) 28. juni 2024
Det er værd at nævne, at denne undersøgelse til dels var en mulighed for at markedsføre Microsofts Azure AI nye sikkerhedsfunktioner som Content Safety Prompt Shields.
De hjælper udviklere med at teste for og forsvare sig mod jailbreaks.
Men alligevel afslører Skeleton Key igen, hvor sårbare selv de mest avancerede AI-modeller kan være over for den mest basale manipulation.