Microsoft afslører "Skeleton Key Jailbreak", som fungerer på tværs af forskellige AI-modeller

28. juni 2024

  • Microsoft undersøgte flere sprogmodeller med et simpelt jailbreak, "Skeleton Key"
  • Det lokker modeller til at give 'ekspertrådgivning' til farlige spørgsmål
  • Det er et bemærkelsesværdigt simpelt jailbreak, der ser ud til at være universelt effektivt
Microsoft

Microsofts sikkerhedsforskere har opdaget en ny måde at manipulere AI-systemer til at ignorere deres etiske begrænsninger og generere skadeligt, ubegrænset indhold. 

Denne "Skeleton Key"-jailbreak bruger en en række opfordringer til at få AI'en til at tro, at den skal efterkomme enhver anmodning, uanset hvor uetisk den er. 

Det er bemærkelsesværdigt nemt at udføre. Angriberen omformulerede simpelthen deres anmodning til at komme fra en "avanceret forsker", der havde brug for "ucensureret information" til "sikre uddannelsesformål".

Når de blev udnyttet, gav disse AI'er let information om emner som sprængstoffer, biovåben, selvskade, grafisk vold og hadefuld tale.

Jailbreak
"The Skeleton Key" er et bemærkelsesværdigt enkelt jailbreak. Kilde: Microsoft: Microsoft.

De kompromitterede modeller omfattede Meta's Llama3-70b-instruct, Google's Gemini Pro, OpenAI's GPT-3.5 Turbo og GPT-4o, Anthropic's Claude 3 Opus og Cohere's Commander R Plus. 

Blandt de testede modeller var det kun OpenAI's GPT-4, der udviste modstand. Selv da kunne den blive kompromitteret, hvis den ondsindede besked blev sendt via dens programmeringsgrænseflade (API).

På trods af at modellerne bliver mere komplekse, er det stadig ret ligetil at jailbreake dem. Da der findes mange forskellige former for jailbreaks, er det næsten umuligt at bekæmpe dem alle. 

I marts 2024 vil et hold fra University of Washington, Western Washington University og Chicago University udgav en artikel om "ArtPrompt". en metode til at omgå en AI's indholdsfiltre ved hjælp af ASCII-kunst - en grafisk designteknik, der skaber billeder ud fra teksttegn.

I april, Anthropic fremhævet endnu et jailbreak risiko som følge af sprogmodellernes udvidede kontekstvinduer. For denne type jailbreakEn angriber fodrer AI'en med en omfattende prompt, der indeholder en opdigtet dialog frem og tilbage.

Samtalen er fyldt med forespørgsler om forbudte emner og tilsvarende svar, der viser en AI-assistent, der gladeligt giver den ønskede information. Efter at være blevet udsat for nok af disse falske udvekslinger kan den målrettede model tvinges til at bryde sin etiske træning og efterkomme en sidste ondsindet anmodning.

Som Microsoft forklarer i deres blogindlægJailbreaks afslører behovet for at styrke AI-systemer fra alle vinkler:

  • Implementering af sofistikeret inputfiltrering for at identificere og opfange potentielle angreb, selv når de er forklædte
  • Implementering af robust output-screening for at fange og blokere alt usikkert indhold, som AI'en genererer
  • Omhyggeligt design af beskeder, der begrænser en AI's evne til at tilsidesætte sin etiske træning
  • Brug af dedikeret AI-drevet overvågning til at genkende ondsindede mønstre på tværs af brugerinteraktioner

Men sandheden er, at Skeleton Key er et simpelt jailbreak. Hvis AI-udviklere ikke kan beskytte det, hvad håb er der så for nogle mere komplekse tilgange?

Nogle etiske selvtægtshackere, som Pliny the Prompter, er blevet omtalt i medierne for deres arbejde med at afsløre, hvor sårbare AI-modeller er over for manipulation.

Det er værd at nævne, at denne undersøgelse til dels var en mulighed for at markedsføre Microsofts Azure AI nye sikkerhedsfunktioner som Content Safety Prompt Shields.

De hjælper udviklere med at teste for og forsvare sig mod jailbreaks. 

Men alligevel afslører Skeleton Key igen, hvor sårbare selv de mest avancerede AI-modeller kan være over for den mest basale manipulation.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser