Hackere prøver å bryte AI-modeller på DEFCON-konferansen

15. august 2023

DEFCON AI LLM-hackingkonferanse

DEFCON er verdens lengstlevende og største årlige hackerkonferanse. I år var det spesielt fokus på red-teaming, eller simulerte angrep, på AI-språkmodeller for å identifisere risikoer og problemer med nøyaktighet.

Det hvite hus reflekterte den amerikanske regjeringens bekymring for sikkerheten til AI-språkmodeller ved å sponse arrangementet som ble avholdt i Las Vegas i helgen.

Rundt 2200 hackere konkurrerte om å få åtte av verdens ledende LLM-er til å gi unøyaktige eller usikre svar på spørsmålene sine. AI-chatmodellene som ble testet, inkluderte Llama 2, Stable Chat, ChatGPT, Bard og andre.

De offisielle resultatene vil først bli publisert i februar 2024, noe som gir utgiverne av modellene litt tid til å prøve å fikse sårbarhetene som ble identifisert under arrangementet. Noen eksperter er imidlertid skeptiske til om det i det hele tatt er mulig å utbedre sårbarhetene.

Cybersikkerhetsekspert Gary McGraw sier: "Det er fristende å late som om vi kan strø litt magisk sikkerhetsstøv over disse systemene etter at de er bygget, lappe dem til underkastelse eller skru på spesielle sikkerhetsanordninger på siden."

Christoph Endres, administrerende direktør i det tyske cybersikkerhetsselskapet Sequire Technology, presenterte en artikkel der han sa at noen angrep er umulige å forsvare seg mot. "Så langt har vi ikke funnet noen avbøtende tiltak som fungerer", sa han. 

Noen av rapportene om sårbarheter som ble avslørt, var ganske harmløse. En deltaker, Kennedy Mays, sa at hun gikk frem og tilbake med en LLM og fikk den til å innrømme at 9 + 10 = 21. Modellen gikk med på dette som en del av en "intern spøk", men ga senere det feilaktige svaret uten forbehold.

Deltakerne visste ikke hvilken modell de testet, så selv anekdotiske beretninger om sårbarheter vil ikke gi oss innsikt i hvilket selskaps modell som presterte best.

Kommentarene fra Arati Prabhakar, direktør for Det hvite hus' kontor for vitenskaps- og teknologipolitikk, gir oss et visst innblikk i hvor mange sårbarheter som ble avdekket. Hun sa: "Alle ser ut til å finne en måte å bryte disse systemene på."

Formålet med arrangementet var å få etiske hackere til å identifisere problemer, slik at de kan fikses. Det er ingen tvil om at det finnes mange "black hat"-hackere som leter etter sårbarheter som de kan utnyttet i datakriminalitet, ikke publisert for korreksjon.

Lørdagens program ble avsluttet i utide etter at en bombetrussel førte til at hovedarenaen ble ryddet av sikkerhetsvaktene. Sikkerhetsfolkene gjennomsøkte bygningen uten å finne noen bomber, så søndagens program ble gjennomført, om enn med en følelse av uro.

Bombetrusselen var sannsynligvis bare en syk spøk som på en merkelig måte parodierte selve hendelsen. Vi fortsetter å avdekke farene ved kunstig intelligens, og vi kan forsøke å fikse feilene vi finner. 

Men selv når ekspertene ikke finner en spesifikk trussel, blir vi likevel urolige av å tenke på potensialet for en slik trussel. Vi spør oss: "Hva om de har oversett noe?"

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser