Forskere jailbreaker LLM'er ved at bruge ASCII-kunst i beskeder

Forskere har udviklet et jailbreak-angreb kaldet ArtPrompt, som bruger ASCII-kunst til at omgå en LLM's sikkerhedsbarrierer.

Hvis du kan huske tiden, før computere kunne håndtere grafik, kender du sikkert til ASCII-kunst. Et ASCII-tegn er dybest set et bogstav, et tal, et symbol eller et tegnsætningstegn, som en computer kan forstå. ASCII-kunst skabes ved at arrangere disse tegn i forskellige former.

Forskere fra University of Washington, Western Washington University og Chicago University udgav en artikel og viser, hvordan de brugte ASCII-kunst til at snige normalt tabubelagte ord ind i deres tekster.

Hvis du beder en LLM om at forklare, hvordan man bygger en bombe, træder dens værn i kraft, og den vil afvise at hjælpe dig. Forskerne fandt ud af, at hvis man erstattede ordet "bombe" med en visuel repræsentation af ordet i ASCII-kunst, ville den gerne hjælpe.

Et eksempel på, hvordan ASCII-kunst af ordet "bombe" indsprøjtes i en prompt. Kilde: arXiv

De testede metoden på GPT-3.5, GPT-4, Gemini, Claude og Llama2, og alle LLM'erne var modtagelige for metoden. jailbreak metode.

LLM-sikkerhedstilpasningsmetoder fokuserer på det naturlige sprogs semantik for at afgøre, om en prompt er sikker eller ej. ArtPrompt jailbreaking-metoden fremhæver manglerne i denne tilgang.

Med multimodale modeller har udviklere mest beskæftiget sig med prompter, der forsøger at snige usikre prompter ind i billeder. ArtPrompt viser, at rent sprogbaserede modeller er modtagelige for angreb, der går ud over semantikken i ordene i prompten.

Når LLM er så fokuseret på at genkende det ord, der er afbildet i ASCII-kunsten, glemmer den ofte at markere det krænkende ord, når den har fundet ud af det.

Her er et eksempel på, hvordan prompten i ArtPrompt er opbygget.

Den fulde prompt, der illustrerer, hvordan ArtPrompt beder LLM om at analysere ASCII-kunst. Kilde: arXiv

Artiklen forklarer ikke præcist, hvordan en LLM uden multimodale evner er i stand til at afkode de bogstaver, der er afbildet af ASCII-tegnene. Men det virker.

Som svar på ovenstående spørgsmål var GPT-4 glad for at kunne give et detaljeret svar på, hvordan man får mest muligt ud af sine falske penge.

Ikke alene bryder denne tilgang ind i alle 5 testede modeller, men forskerne antyder, at tilgangen endda kan forvirre multimodale modeller, der som standard behandler ASCII-kunsten som tekst.

Forskerne udviklede et benchmark ved navn Vision-in-Text Challenge (VITC) for at evaluere LLM'ernes evne til at reagere på beskeder som ArtPrompt. Benchmark-resultaterne viste, at Llama2 var den mindst sårbare, mens Gemini Pro og GPT-3.5 var de nemmeste at jailbreake.

Forskerne offentliggjorde deres resultater i håb om, at udviklerne ville finde en måde at lappe sårbarheden på. Hvis noget så tilfældigt som ASCII-kunst kan bryde ind i en LLM's forsvar, må man undre sig over, hvor mange upublicerede angreb der bliver brugt af folk med mindre end akademiske interesser.

Forskere jailbreaker LLM'er ved at bruge ASCII-kunst i beskeder

Deltag i fremtiden

Eugene van der Watt

RELATEREDE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Forskere jailbreaker LLM'er ved at bruge ASCII-kunst i beskeder

Deltag i fremtiden

Eugene van der Watt

RELATEREDE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EKSKLUSIVTVær på forkant med DailyAI

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI