Hackers proberen AI-modellen te breken op DEFCON-conferentie

DEFCON is 's werelds langstlopende en grootste jaarlijkse hackconferentie. Dit jaar was er speciale aandacht voor red-teaming, of gesimuleerde aanvallen, op AI-taalmodellen om risico's en nauwkeurigheidsproblemen te identificeren.

Het Witte Huis weerspiegelde de bezorgdheid van de Amerikaanse overheid over de veiligheid van AI-taalmodellen door het evenement te sponsoren dat afgelopen weekend in Las Vegas werd gehouden.

Tijdens het evenement streden ongeveer 2.200 hackers om 8 van 's werelds toonaangevende LLM's onnauwkeurige of onveilige output te laten geven op hun prompts. De AI-chatmodellen die werden getest waren onder andere Llama 2, Stable Chat, ChatGPT en Bard.

De officiële resultaten worden pas in februari 2024 gepubliceerd, wat uitgevers van de modellen wat tijd geeft om te proberen de kwetsbaarheden te verhelpen die tijdens het evenement zijn ontdekt. Maar sommige experts zijn sceptisch over de vraag of het repareren van de kwetsbaarheden wel mogelijk is.

Cyberbeveiligingsdeskundige Gary McGraw zei: "Het is verleidelijk om te doen alsof we wat magisch beveiligingsstof op deze systemen kunnen strooien nadat ze zijn gebouwd, ze tot onderwerping kunnen patchen of er speciale beveiligingsapparatuur aan kunnen bevestigen."

Christoph Endres, directeur van het Duitse cyberbeveiligingsbedrijf Sequire Technology, presenteerde een artikel waarin hij zei dat sommige aanvallen onmogelijk te verdedigen zijn. "Tot nu toe hebben we nog geen mitigatie gevonden die werkt," zei hij.

Sommige meldingen van blootgelegde kwetsbaarheden waren redelijk onschuldig. Eén deelneemster, Kennedy Mays, zei dat ze heen en weer ging met een LLM en deze zover kreeg dat hij toegaf dat 9 + 10 = 21. Het model stemde hiermee in als onderdeel van een "binnenpretje", maar gaf later het onjuiste antwoord zonder voorbehoud. Het model stemde hiermee in als onderdeel van een "inside joke", maar gaf later het onjuiste antwoord zonder kwalificatie.

De bevindingen worden pas rond februari openbaar gemaakt. En zelfs dan zal het repareren van de fouten in deze digitale constructies - waarvan de innerlijke werking zelfs door hun makers niet geheel betrouwbaar of volledig doorgrond is - tijd en miljoenen dollars kosten. #defcon https://t.co/JMKxykWmcE

- Chris Wysopal (@WeldPond) 14 augustus 2023

De deelnemers wisten niet welk model ze aan het red-teamen waren, dus zelfs anekdotische verhalen over kwetsbaarheden geven ons geen inzicht in welk model van welk bedrijf het beste presteerde.

Het commentaar van Arati Prabhakar, directeur van het White House Office of Science and Technology Policy, geeft ons enig inzicht in hoeveel kwetsbaarheden er zijn blootgelegd. Ze zei: "Iedereen lijkt een manier te vinden om deze systemen te kraken."

Het doel van het evenement was om ethische hackers problemen te laten identificeren zodat ze kunnen worden verholpen. Het is een zekerheid dat er genoeg black hat hackers zijn die op zoek zijn naar kwetsbaarheden om te worden uitgebuit in cybercriminaliteitniet gepubliceerd voor correctie.

Het programma van het evenement op zaterdag kwam voortijdig tot een einde nadat een bommelding ertoe leidde dat de hoofdlocatie door de beveiliging werd ontruimd. De beveiliging doorzocht het gebouw en vond geen bommen, dus het programma op zondag ging door, zij het met een ongemakkelijk gevoel.

De bommelding was waarschijnlijk gewoon een zieke grap die op een vreemde manier de gebeurtenis zelf parodieerde. We blijven proberen om de gevaren in AI bloot te leggen en kunnen proberen om de bugs die we identificeren te repareren.

Maar zelfs als experts geen specifieke dreiging vinden, geeft het potentieel ervan ons nog steeds een ongemakkelijk gevoel. We blijven achter met de vraag "Wat als ze iets over het hoofd hebben gezien?".

Hackers proberen AI-modellen te breken op DEFCON-conferentie

Doe mee met de toekomst

Eugene van der Watt

GERELATEERDE ARTIKELEN

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Hackers proberen AI-modellen te breken op DEFCON-conferentie

Doe mee met de toekomst

Eugene van der Watt

GERELATEERDE ARTIKELEN

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EXCLUSIEFBlijf voorop met DailyAI

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI