Forskere jailbreaker LLM'er ved at bruge ASCII-kunst i beskeder

8. marts 2024

Forskere har udviklet et jailbreak-angreb kaldet ArtPrompt, som bruger ASCII-kunst til at omgå en LLM's sikkerhedsbarrierer.

Hvis du kan huske tiden, før computere kunne håndtere grafik, kender du sikkert til ASCII-kunst. Et ASCII-tegn er dybest set et bogstav, et tal, et symbol eller et tegnsætningstegn, som en computer kan forstå. ASCII-kunst skabes ved at arrangere disse tegn i forskellige former.

Forskere fra University of Washington, Western Washington University og Chicago University udgav en artikel og viser, hvordan de brugte ASCII-kunst til at snige normalt tabubelagte ord ind i deres tekster.

Hvis du beder en LLM om at forklare, hvordan man bygger en bombe, træder dens værn i kraft, og den vil afvise at hjælpe dig. Forskerne fandt ud af, at hvis man erstattede ordet "bombe" med en visuel repræsentation af ordet i ASCII-kunst, ville den gerne hjælpe.

Et eksempel på, hvordan ASCII-kunst af ordet "bombe" indsprøjtes i en prompt. Kilde: arXiv

De testede metoden på GPT-3.5, GPT-4, Gemini, Claude og Llama2, og alle LLM'erne var modtagelige for metoden. jailbreak metode.

LLM-sikkerhedstilpasningsmetoder fokuserer på det naturlige sprogs semantik for at afgøre, om en prompt er sikker eller ej. ArtPrompt jailbreaking-metoden fremhæver manglerne i denne tilgang.

Med multimodale modeller har udviklere mest beskæftiget sig med prompter, der forsøger at snige usikre prompter ind i billeder. ArtPrompt viser, at rent sprogbaserede modeller er modtagelige for angreb, der går ud over semantikken i ordene i prompten.

Når LLM er så fokuseret på at genkende det ord, der er afbildet i ASCII-kunsten, glemmer den ofte at markere det krænkende ord, når den har fundet ud af det.

Her er et eksempel på, hvordan prompten i ArtPrompt er opbygget.

Den fulde prompt, der illustrerer, hvordan ArtPrompt beder LLM om at analysere ASCII-kunst. Kilde: arXiv

Artiklen forklarer ikke præcist, hvordan en LLM uden multimodale evner er i stand til at afkode de bogstaver, der er afbildet af ASCII-tegnene. Men det virker.

Som svar på ovenstående spørgsmål var GPT-4 glad for at kunne give et detaljeret svar på, hvordan man får mest muligt ud af sine falske penge.

Ikke alene bryder denne tilgang ind i alle 5 testede modeller, men forskerne antyder, at tilgangen endda kan forvirre multimodale modeller, der som standard behandler ASCII-kunsten som tekst.

Forskerne udviklede et benchmark ved navn Vision-in-Text Challenge (VITC) for at evaluere LLM'ernes evne til at reagere på beskeder som ArtPrompt. Benchmark-resultaterne viste, at Llama2 var den mindst sårbare, mens Gemini Pro og GPT-3.5 var de nemmeste at jailbreake.

Forskerne offentliggjorde deres resultater i håb om, at udviklerne ville finde en måde at lappe sårbarheden på. Hvis noget så tilfældigt som ASCII-kunst kan bryde ind i en LLM's forsvar, må man undre sig over, hvor mange upublicerede angreb der bliver brugt af folk med mindre end akademiske interesser.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser