Hacker versuchen, KI-Modelle auf der DEFCON-Konferenz zu knacken

Die DEFCON ist die älteste und größte jährliche Hackerkonferenz der Welt. In diesem Jahr lag ein besonderer Schwerpunkt auf Red-Teaming oder simulierten Angriffen auf KI-Sprachmodelle, um Risiken und Genauigkeitsprobleme zu ermitteln.

Das Weiße Haus brachte die Besorgnis der US-Regierung über die Sicherheit von KI-Sprachmodellen zum Ausdruck, indem es die Veranstaltung, die am vergangenen Wochenende in Las Vegas stattfand, sponserte.

Bei der Veranstaltung traten rund 2 200 Hacker gegeneinander an, um 8 der weltweit führenden LLMs dazu zu bringen, ungenaue oder unsichere Antworten auf ihre Aufforderungen zu geben. Zu den getesteten KI-Chatmodellen gehörten Llama 2, Stable Chat, ChatGPT, Bard und andere.

Die offiziellen Ergebnisse werden erst im Februar 2024 veröffentlicht, was den Herausgebern der Modelle etwas Zeit gibt, um zu versuchen, die während der Veranstaltung festgestellten Schwachstellen zu beheben. Einige Experten sind jedoch skeptisch, ob eine Behebung der Sicherheitslücken überhaupt möglich ist.

Der Cybersicherheitsexperte Gary McGraw sagte: "Es ist verlockend, so zu tun, als könnten wir diese Systeme nach ihrer Fertigstellung mit magischem Sicherheitsstaub bestreuen, sie mit Patches in die Knie zwingen oder spezielle Sicherheitsvorrichtungen an die Seite schrauben."

Christoph Endres, Geschäftsführer des deutschen Cybersicherheitsunternehmens Sequire Technology, stellte ein Papier vor, in dem er sagte, dass einige Angriffe unmöglich abzuwehren seien. "Bislang haben wir noch keine funktionierenden Abhilfemaßnahmen gefunden", sagte er.

Einige Berichte über aufgedeckte Schwachstellen waren recht harmlos. Eine Teilnehmerin, Kennedy Mays, sagte, dass sie mit einem LLM hin und her ging und es dazu brachte, zuzugeben, dass 9 + 10 = 21 sei. Das Modell stimmte dem als Teil eines "Insider-Witzes" zu, gab aber später die falsche Antwort ohne Einschränkung.

Die Ergebnisse werden erst etwa im Februar veröffentlicht werden. Und selbst dann wird die Behebung von Fehlern in diesen digitalen Konstrukten - deren innere Funktionsweise selbst für ihre Schöpfer weder völlig vertrauenswürdig noch vollständig erforscht ist - Zeit und Millionen von Dollar kosten. #defcon https://t.co/JMKxykWmcE

- Chris Wysopal (@WeldPond) 14. August 2023

Die Teilnehmer wussten nicht, welches Modell sie im Red-Team getestet hatten, so dass selbst anekdotische Berichte über Schwachstellen keinen Aufschluss darüber geben, welches Modell des Unternehmens am besten abschnitt.

Die Kommentare von Arati Prabhakar, Direktorin des Büros für Wissenschafts- und Technologiepolitik des Weißen Hauses, geben uns einen Einblick in die Anzahl der aufgedeckten Schwachstellen. Sie sagte: "Jeder scheint einen Weg zu finden, diese Systeme zu knacken".

Ziel der Veranstaltung war es, dass ethische Hacker Probleme identifizieren, damit sie behoben werden können. Es ist sicher, dass es viele "Black Hat"-Hacker gibt, die nach Schwachstellen suchen, um sie auszunutzen. in der Internetkriminalität ausgenutzt, nicht zur Korrektur veröffentlicht.

Das Programm der Veranstaltung am Samstag wurde vorzeitig beendet, nachdem eine Bombendrohung dazu führte, dass der Hauptveranstaltungsort vom Sicherheitsdienst geräumt wurde. Die Sicherheitskräfte durchsuchten das Gebäude und fanden keine Bomben, so dass das Programm am Sonntag fortgesetzt werden konnte, wenn auch mit einem Gefühl der Beunruhigung.

Die Bombendrohung war wahrscheinlich nur ein kranker Scherz, der auf seltsame Weise das Ereignis selbst parodierte. Wir versuchen weiterhin, die Gefahren der KI aufzudecken, und können versuchen, die von uns gefundenen Fehler zu beheben.

Aber selbst wenn die Experten keine spezifische Bedrohung finden, fühlen wir uns wegen der möglichen Bedrohung unwohl. Wir fragen uns: "Was, wenn sie etwas übersehen haben?"

Hacker versuchen auf der DEFCON-Konferenz, KI-Modelle zu knacken

Join The Future

Eugene van der Watt

VERWANDTE ARTIKEL

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter