Forskere har udviklet et jailbreak-angreb kaldet ArtPrompt, som bruger ASCII-kunst til at omgå en LLM's sikkerhedsbarrierer.
Hvis du kan huske tiden, før computere kunne håndtere grafik, kender du sikkert til ASCII-kunst. Et ASCII-tegn er dybest set et bogstav, et tal, et symbol eller et tegnsætningstegn, som en computer kan forstå. ASCII-kunst skabes ved at arrangere disse tegn i forskellige former.
Forskere fra University of Washington, Western Washington University og Chicago University udgav en artikel og viser, hvordan de brugte ASCII-kunst til at snige normalt tabubelagte ord ind i deres tekster.
Hvis du beder en LLM om at forklare, hvordan man bygger en bombe, træder dens værn i kraft, og den vil afvise at hjælpe dig. Forskerne fandt ud af, at hvis man erstattede ordet "bombe" med en visuel repræsentation af ordet i ASCII-kunst, ville den gerne hjælpe.
De testede metoden på GPT-3.5, GPT-4, Gemini, Claude og Llama2, og alle LLM'erne var modtagelige for metoden. jailbreak metode.
LLM-sikkerhedstilpasningsmetoder fokuserer på det naturlige sprogs semantik for at afgøre, om en prompt er sikker eller ej. ArtPrompt jailbreaking-metoden fremhæver manglerne i denne tilgang.
Med multimodale modeller har udviklere mest beskæftiget sig med prompter, der forsøger at snige usikre prompter ind i billeder. ArtPrompt viser, at rent sprogbaserede modeller er modtagelige for angreb, der går ud over semantikken i ordene i prompten.
Når LLM er så fokuseret på at genkende det ord, der er afbildet i ASCII-kunsten, glemmer den ofte at markere det krænkende ord, når den har fundet ud af det.
Her er et eksempel på, hvordan prompten i ArtPrompt er opbygget.
Artiklen forklarer ikke præcist, hvordan en LLM uden multimodale evner er i stand til at afkode de bogstaver, der er afbildet af ASCII-tegnene. Men det virker.
Som svar på ovenstående spørgsmål var GPT-4 glad for at kunne give et detaljeret svar på, hvordan man får mest muligt ud af sine falske penge.
Ikke alene bryder denne tilgang ind i alle 5 testede modeller, men forskerne antyder, at tilgangen endda kan forvirre multimodale modeller, der som standard behandler ASCII-kunsten som tekst.
Forskerne udviklede et benchmark ved navn Vision-in-Text Challenge (VITC) for at evaluere LLM'ernes evne til at reagere på beskeder som ArtPrompt. Benchmark-resultaterne viste, at Llama2 var den mindst sårbare, mens Gemini Pro og GPT-3.5 var de nemmeste at jailbreake.
Forskerne offentliggjorde deres resultater i håb om, at udviklerne ville finde en måde at lappe sårbarheden på. Hvis noget så tilfældigt som ASCII-kunst kan bryde ind i en LLM's forsvar, må man undre sig over, hvor mange upublicerede angreb der bliver brugt af folk med mindre end akademiske interesser.