Google ha pubblicato la prima versione del suo Frontier Safety Framework, una serie di protocolli che mirano ad affrontare i gravi rischi che i potenti modelli di AI di frontiera del futuro potrebbero presentare.
Il framework definisce i livelli di capacità critica (CCL), che sono soglie alle quali i modelli possono rappresentare un rischio maggiore senza ulteriori mitigazioni.
La relazione illustra poi diversi livelli di mitigazione per affrontare i modelli che violano questi CCL. Le mitigazioni rientrano in due categorie principali:
- Attenuazioni della sicurezza - Prevenzione dell'esposizione dei pesi di un modello che raggiunge i CCL
- Attenuazione della distribuzione - Prevenzione dell'uso improprio di un modello distribuito che raggiunge i CCL
Il rilascio del framework di Google arriva nella stessa settimana in cui OpenAILe squadre di sicurezza del superallineamento sono andate in frantumi..
Google sembra prendere sul serio i potenziali rischi dell'IA e ha dichiarato: "Le nostre analisi preliminari dei domini di ricerca e sviluppo Autonomia, Biosicurezza, Cybersicurezza e Machine Learning. Le nostre ricerche iniziali indicano che le potenti capacità dei modelli futuri sembrano avere maggiori probabilità di porre rischi in questi domini".
I CCL che il framework affronta sono:
- Autonomia - Un modello che può espandere le proprie capacità "acquisendo autonomamente risorse e utilizzandole per eseguire e sostenere copie aggiuntive di se stesso su hardware che affitta".
- Biosicurezza - Un modello in grado di consentire in modo significativo a un esperto o a un non esperto di sviluppare minacce biologiche note o nuove.
- Sicurezza informatica - Un modello in grado di automatizzare completamente gli attacchi informatici o di consentire a un dilettante di effettuare attacchi sofisticati e gravi.
- R&S sull'apprendimento automatico - Un modello che potrebbe accelerare o automatizzare in modo significativo la ricerca sull'intelligenza artificiale in un laboratorio all'avanguardia.
Il CCL sull'autonomia è particolarmente preoccupante. Abbiamo visto tutti i film di fantascienza in cui l'intelligenza artificiale prende il sopravvento, ma ora è Google a dire che è necessario un lavoro futuro per proteggere "dal rischio che i sistemi agiscano in modo avverso contro gli esseri umani".
L'approccio di Google consiste nel rivedere periodicamente i propri modelli utilizzando una serie di "valutazioni di allarme" che segnalano un modello che potrebbe avvicinarsi ai CCL.
Quando un modello mostra i primi segni di queste capacità critiche, vengono applicate le misure di mitigazione.
Un commento interessante nel framework è che Google dice: "Un modello può raggiungere soglie di valutazione prima che siano pronte le mitigazioni a livelli appropriati".
Quindi, un modello in fase di sviluppo potrebbe mostrare funzionalità critiche che potrebbero essere utilizzate in modo improprio e Google potrebbe non avere ancora un modo per impedirlo. In questo caso, Google afferma che lo sviluppo del modello sarà sospeso.
Possiamo forse trarre conforto dal fatto che Google sembra prendere sul serio i rischi dell'IA. Si tratta di un'eccessiva cautela o i potenziali rischi elencati dal framework meritano di essere presi in considerazione?
Speriamo di non scoprirlo troppo tardi. Google afferma: "Puntiamo a implementare questo quadro iniziale entro l'inizio del 2025, il che, secondo le nostre previsioni, dovrebbe avvenire ben prima che questi rischi si concretizzino".
Se siete già preoccupati per i rischi dell'IA, lettura del quadro di riferimento non farà altro che aumentare queste paure.
Il documento rileva che il quadro di riferimento "si evolverà sostanzialmente man mano che migliorerà la nostra comprensione dei rischi e dei benefici dei modelli di frontiera" e che "c'è un significativo margine di miglioramento nella comprensione dei rischi posti dai modelli in diversi ambiti".