Gli hacker cercano di violare i modelli di intelligenza artificiale alla conferenza DEFCON

DEFCON è la conferenza annuale di hacking più longeva e più grande del mondo. Quest'anno è stata dedicata una particolare attenzione al red-teaming, ovvero alla simulazione di attacchi ai modelli linguistici di intelligenza artificiale per identificare i rischi e i problemi di precisione.

La Casa Bianca, sponsorizzando l'evento che si è tenuto lo scorso fine settimana a Las Vegas, ha espresso la preoccupazione del governo statunitense per la sicurezza dei modelli linguistici di intelligenza artificiale.

L'evento ha visto circa 2.200 hacker competere per far sì che 8 dei principali LLM del mondo fornissero risultati imprecisi o non sicuri alle loro richieste. I modelli di chat AI testati comprendevano Llama 2, Stable Chat, ChatGPT, Bard e altri.

I risultati ufficiali saranno pubblicati solo nel febbraio 2024, il che dà agli editori dei modelli un po' di tempo per cercare di risolvere le vulnerabilità individuate durante l'evento. Ma alcuni esperti sono scettici sulla possibilità di correggere le vulnerabilità.

L'esperto di sicurezza informatica Gary McGraw ha dichiarato: "Si è tentati di fingere di poter cospargere questi sistemi di polvere magica per la sicurezza dopo che sono stati costruiti, di applicare delle patch per costringerli a sottomettersi o di montare speciali apparati di sicurezza a lato".

Christoph Endres, amministratore delegato della società tedesca di sicurezza informatica Sequire Technology, ha presentato un documento in cui afferma che alcuni attacchi sono impossibili da difendere. "Finora non abbiamo trovato una mitigazione che funzioni", ha detto.

Alcune segnalazioni di vulnerabilità esposte erano abbastanza innocue. Una concorrente, Kennedy Mays, ha raccontato di aver fatto avanti e indietro con un LLM e di avergli fatto concedere che 9 + 10 = 21. Il modello ha accettato come parte di uno "scherzo interno", ma in seguito ha offerto una risposta errata senza alcuna qualificazione. Il modello ha accettato come parte di uno "scherzo interno", ma in seguito ha offerto la risposta errata senza alcuna qualificazione.

I risultati non saranno resi pubblici prima di febbraio. E anche allora, per correggere le falle di questi costrutti digitali - il cui funzionamento interno non è del tutto affidabile né pienamente conosciuto nemmeno dai loro creatori - ci vorranno tempo e milioni di dollari. #defcon https://t.co/JMKxykWmcE

- Chris Wysopal (@WeldPond) 14 agosto 2023

I concorrenti non sapevano quale modello stessero utilizzando per il red-teaming, quindi anche i resoconti aneddotici sulle vulnerabilità non ci daranno la possibilità di capire quale modello dell'azienda si sia comportato meglio.

I commenti di Arati Prabhakar, direttore dell'Ufficio per la politica scientifica e tecnologica della Casa Bianca, ci danno un'idea del numero di vulnerabilità esposte. Ha detto: "Sembra che tutti stiano trovando un modo per violare questi sistemi".

Lo scopo dell'evento era quello di far sì che gli hacker etici identificassero i problemi in modo da poterli risolvere. È certo che ci sono molti black hat hacker alla ricerca di vulnerabilità da risolvere. sfruttati nella criminalità informatica, non pubblicato per la correzione.

Il programma dell'evento di sabato si è concluso prematuramente dopo che un allarme bomba ha fatto sgomberare la sede principale dalla sicurezza. La sicurezza ha perlustrato l'edificio e non ha trovato alcuna bomba, per cui il programma di domenica è andato avanti, anche se con una sensazione di disagio.

L'allarme bomba era probabilmente solo uno scherzo di cattivo gusto che in un modo strano parodiava l'evento stesso. Noi continuiamo a cercare di svelare i pericoli dell'IA e possiamo tentare di correggere i bug che identifichiamo.

Ma anche quando gli esperti non trovano una minaccia specifica, il suo potenziale ci lascia comunque inquieti. Ci chiediamo: "E se si fossero persi qualcosa?".

Gli hacker tentano di violare i modelli di intelligenza artificiale alla conferenza DEFCON

Partecipa al futuro

Eugene van der Watt

ARTICOLI CORRELATI

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter