Hackere prøver å bryte AI-modeller på DEFCON-konferansen

DEFCON er verdens lengstlevende og største årlige hackerkonferanse. I år var det spesielt fokus på red-teaming, eller simulerte angrep, på AI-språkmodeller for å identifisere risikoer og problemer med nøyaktighet.

Det hvite hus reflekterte den amerikanske regjeringens bekymring for sikkerheten til AI-språkmodeller ved å sponse arrangementet som ble avholdt i Las Vegas i helgen.

Rundt 2200 hackere konkurrerte om å få åtte av verdens ledende LLM-er til å gi unøyaktige eller usikre svar på spørsmålene sine. AI-chatmodellene som ble testet, inkluderte Llama 2, Stable Chat, ChatGPT, Bard og andre.

De offisielle resultatene vil først bli publisert i februar 2024, noe som gir utgiverne av modellene litt tid til å prøve å fikse sårbarhetene som ble identifisert under arrangementet. Noen eksperter er imidlertid skeptiske til om det i det hele tatt er mulig å utbedre sårbarhetene.

Cybersikkerhetsekspert Gary McGraw sier: "Det er fristende å late som om vi kan strø litt magisk sikkerhetsstøv over disse systemene etter at de er bygget, lappe dem til underkastelse eller skru på spesielle sikkerhetsanordninger på siden."

Christoph Endres, administrerende direktør i det tyske cybersikkerhetsselskapet Sequire Technology, presenterte en artikkel der han sa at noen angrep er umulige å forsvare seg mot. "Så langt har vi ikke funnet noen avbøtende tiltak som fungerer", sa han.

Noen av rapportene om sårbarheter som ble avslørt, var ganske harmløse. En deltaker, Kennedy Mays, sa at hun gikk frem og tilbake med en LLM og fikk den til å innrømme at 9 + 10 = 21. Modellen gikk med på dette som en del av en "intern spøk", men ga senere det feilaktige svaret uten forbehold.

Resultatene vil ikke bli offentliggjort før rundt februar. Og selv da vil det ta tid og millioner av dollar å rette opp feilene i disse digitale konstruksjonene - hvis indre funksjoner verken er helt pålitelige eller fullt ut forstått, selv ikke av skaperne av dem. #defcon https://t.co/JMKxykWmcE

- Chris Wysopal (@WeldPond) 14. august 2023

Deltakerne visste ikke hvilken modell de testet, så selv anekdotiske beretninger om sårbarheter vil ikke gi oss innsikt i hvilket selskaps modell som presterte best.

Kommentarene fra Arati Prabhakar, direktør for Det hvite hus' kontor for vitenskaps- og teknologipolitikk, gir oss et visst innblikk i hvor mange sårbarheter som ble avdekket. Hun sa: "Alle ser ut til å finne en måte å bryte disse systemene på."

Formålet med arrangementet var å få etiske hackere til å identifisere problemer, slik at de kan fikses. Det er ingen tvil om at det finnes mange "black hat"-hackere som leter etter sårbarheter som de kan utnyttet i datakriminalitet, ikke publisert for korreksjon.

Lørdagens program ble avsluttet i utide etter at en bombetrussel førte til at hovedarenaen ble ryddet av sikkerhetsvaktene. Sikkerhetsfolkene gjennomsøkte bygningen uten å finne noen bomber, så søndagens program ble gjennomført, om enn med en følelse av uro.

Bombetrusselen var sannsynligvis bare en syk spøk som på en merkelig måte parodierte selve hendelsen. Vi fortsetter å avdekke farene ved kunstig intelligens, og vi kan forsøke å fikse feilene vi finner.

Men selv når ekspertene ikke finner en spesifikk trussel, blir vi likevel urolige av å tenke på potensialet for en slik trussel. Vi spør oss: "Hva om de har oversett noe?"

Hackere prøver å bryte AI-modeller på DEFCON-konferansen

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Hackere prøver å bryte AI-modeller på DEFCON-konferansen

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EKSKLUSIVHold deg i forkant med DailyAI

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI