Hackers proberen AI-modellen te breken op DEFCON-conferentie

15 augustus 2023

DEFCON AI LLM hackconferentie

DEFCON is 's werelds langstlopende en grootste jaarlijkse hackconferentie. Dit jaar was er speciale aandacht voor red-teaming, of gesimuleerde aanvallen, op AI-taalmodellen om risico's en nauwkeurigheidsproblemen te identificeren.

Het Witte Huis weerspiegelde de bezorgdheid van de Amerikaanse overheid over de veiligheid van AI-taalmodellen door het evenement te sponsoren dat afgelopen weekend in Las Vegas werd gehouden.

Tijdens het evenement streden ongeveer 2.200 hackers om 8 van 's werelds toonaangevende LLM's onnauwkeurige of onveilige output te laten geven op hun prompts. De AI-chatmodellen die werden getest waren onder andere Llama 2, Stable Chat, ChatGPT en Bard.

De officiële resultaten worden pas in februari 2024 gepubliceerd, wat uitgevers van de modellen wat tijd geeft om te proberen de kwetsbaarheden te verhelpen die tijdens het evenement zijn ontdekt. Maar sommige experts zijn sceptisch over de vraag of het repareren van de kwetsbaarheden wel mogelijk is.

Cyberbeveiligingsdeskundige Gary McGraw zei: "Het is verleidelijk om te doen alsof we wat magisch beveiligingsstof op deze systemen kunnen strooien nadat ze zijn gebouwd, ze tot onderwerping kunnen patchen of er speciale beveiligingsapparatuur aan kunnen bevestigen."

Christoph Endres, directeur van het Duitse cyberbeveiligingsbedrijf Sequire Technology, presenteerde een artikel waarin hij zei dat sommige aanvallen onmogelijk te verdedigen zijn. "Tot nu toe hebben we nog geen mitigatie gevonden die werkt," zei hij. 

Sommige meldingen van blootgelegde kwetsbaarheden waren redelijk onschuldig. Eén deelneemster, Kennedy Mays, zei dat ze heen en weer ging met een LLM en deze zover kreeg dat hij toegaf dat 9 + 10 = 21. Het model stemde hiermee in als onderdeel van een "binnenpretje", maar gaf later het onjuiste antwoord zonder voorbehoud. Het model stemde hiermee in als onderdeel van een "inside joke", maar gaf later het onjuiste antwoord zonder kwalificatie.

De deelnemers wisten niet welk model ze aan het red-teamen waren, dus zelfs anekdotische verhalen over kwetsbaarheden geven ons geen inzicht in welk model van welk bedrijf het beste presteerde.

Het commentaar van Arati Prabhakar, directeur van het White House Office of Science and Technology Policy, geeft ons enig inzicht in hoeveel kwetsbaarheden er zijn blootgelegd. Ze zei: "Iedereen lijkt een manier te vinden om deze systemen te kraken."

Het doel van het evenement was om ethische hackers problemen te laten identificeren zodat ze kunnen worden verholpen. Het is een zekerheid dat er genoeg black hat hackers zijn die op zoek zijn naar kwetsbaarheden om te worden uitgebuit in cybercriminaliteitniet gepubliceerd voor correctie.

Het programma van het evenement op zaterdag kwam voortijdig tot een einde nadat een bommelding ertoe leidde dat de hoofdlocatie door de beveiliging werd ontruimd. De beveiliging doorzocht het gebouw en vond geen bommen, dus het programma op zondag ging door, zij het met een ongemakkelijk gevoel.

De bommelding was waarschijnlijk gewoon een zieke grap die op een vreemde manier de gebeurtenis zelf parodieerde. We blijven proberen om de gevaren in AI bloot te leggen en kunnen proberen om de bugs die we identificeren te repareren. 

Maar zelfs als experts geen specifieke dreiging vinden, geeft het potentieel ervan ons nog steeds een ongemakkelijk gevoel. We blijven achter met de vraag "Wat als ze iets over het hoofd hebben gezien?".

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden