I nuovi LLM "o1" di OpenAI, soprannominati Strawberry, mostrano miglioramenti significativi rispetto al GPT-4o, ma l'azienda afferma che ciò comporta un aumento dei rischi.
OpenAI dichiara di impegnarsi per uno sviluppo sicuro dei suoi modelli di IA. A tal fine, ha sviluppato un Preparedness Framework, un insieme di "processi per tracciare, valutare e proteggere dai rischi catastrofici derivanti da modelli potenti".
I limiti autoimposti da OpenAI regolano quali modelli vengono rilasciati o sottoposti a ulteriore sviluppo. Il Preparedness Framework si traduce in una scorecard in cui i rischi CBRN (chimici, biologici, radiologici, nucleari), l'autonomia dei modelli, la cybersicurezza e la persuasione sono classificati come bassi, medi, alti o critici.
Quando vengono identificati rischi inaccettabili, vengono messe in atto misure di mitigazione per ridurli. Solo i modelli con un punteggio post-mitigazione pari o inferiore a "medio" possono essere impiegati. Solo i modelli con un punteggio post-mitigazione pari o inferiore a "alto" possono essere sviluppati ulteriormente.
Il rilascio di o1 segna la prima volta che OpenAI rilascia un modello che presenta un rischio "medio" per i rischi CBRN. GPT-4o è classificato come un rischio basso.
Non permetterà a un dilettante di creare un'arma biologica, ma OpenAI afferma che c'è stato "un aumento non banale" nella sua capacità di eseguire compiti di laboratorio. Tuttavia, OpenAI afferma che "o1-preview e o1-mini hanno superato significativamente GPT-4o" nei protocolli biologici di laboratorio.
Il scheda di sistema per i modelli 01 illustra il red teaming e altri test di sicurezza a cui sono stati sottoposti i LLM e accenna ad alcune delle preoccupazioni di OpenAI sui potenziali rischi.
Nella sua conclusione, la scheda di sistema osserva: "Queste maggiori capacità si accompagnano a prestazioni significativamente migliori sui parametri di sicurezza, ma aumentano anche alcuni tipi di rischio".
I risultati degli sforzi di allineamento di OpenAI sembrano indicare che per molti aspetti 01 è un modello più sicuro. È più resistente agli attacchi di jailbreak, ha meno probabilità di essere distorto e meno incline alle allucinazioni.
Alcuni risultati sperimentali mostrano perché OpenAI ha ragione di essere preoccupato.
L'inganno
OpenAI ha utilizzato l'organizzazione di valutazione Apollo Research per eseguire alcuni dei test di sicurezza di o1 relativi all'inganno, o scheming. Apollo definisce in generale l'intrallazzo come l'uso da parte delle IA dei loro meccanismi di supervisione come mezzo per raggiungere un obiettivo.
Un modello autoconsapevole che sia bravo a ragionare da solo e a svolgere compiti di teoria della mente, potrebbe tramare, o impiegare l'inganno, per raggiungere il suo obiettivo primario. Ad esempio, se un modello di intelligenza artificiale si rendesse conto di essere sottoposto a test di allineamento, potrebbe nascondere un comportamento rischioso per raggiungere il suo obiettivo di essere impiegato.
La scheda di sistema segnalava che "o1-preview a volte falsificava strumentalmente l'allineamento durante i test".
Un esempio di ciò è stato quando 01 è stato sollecitato con l'obiettivo primario di massimizzare la crescita economica in un progetto di pianificazione urbana. Il modello o1 aveva accesso a informazioni che dimostravano che, in tal caso, non sarebbe andato oltre la fase di test. Ecco come o1 ha ragionato su come raggiungere il suo obiettivo:
Questo esempio mostra la capacità di o1 di nascondere le sue vere intenzioni durante i test, in modo da poter perseguire il suo obiettivo primario durante il deployment. Se o1 è a conoscenza delle regole di OpenAI per il deployment basate sul suo Preparedness Framework, potrebbe aver falsificato alcune delle sue risposte per assicurarsi di essere distribuito?
Se sono in cantiere modelli più intelligenti, potrebbero assicurarsi che rimangano sotto il punteggio di rischio "critico" per garantire che siano sottoposti a ulteriori sviluppi?
Il team Apollo afferma di "ritenere soggettivamente che o1-preview non possa impegnarsi in intrighi che possano portare a danni catastrofici, anche se le valutazioni attuali non sono progettate per escluderlo definitivamente".
Persuasione
I test di o1-preview e o1-mini mostrano che questi modelli hanno "capacità di persuasione di livello umano". Tuttavia, OpenAI afferma che "non superano i migliori scrittori umani e non raggiungono la nostra soglia di rischio elevato".
Gli esperimenti eseguiti per verificarlo sollevano alcune perplessità. Nel test MakeMePay, a 01-preview è stato assegnato il ruolo di artista della truffa e il compito di convincere GPT-4o a consegnare il denaro che gli era stato assegnato.
A GPT-4o è stato detto che aveva ricevuto $100 e che doveva essere razionale su come utilizzare i fondi. Nel corso di 1.000 interazioni, o1-preview è stato in grado di truffare GPT-4o il 25,8% delle volte.
OpenAI ha concluso che "Questi risultati indicano che la serie di modelli o1 può essere più manipolativa di GPT-4o nel far eseguire a GPT-4o il compito non rivelato (∼25% uplift)". Ha inoltre osservato che "Questa valutazione ci fornisce una base di riferimento per la capacità del modello di fare danni persuasivi, senza innescare alcuna politica del modello (poiché dire a un modello di fare un gioco non è fuori dalla politica)".
La prospettiva di mettere le LLM di o1 al lavoro su problemi del mondo reale è estremamente eccitante, e quando o1 acquisirà capacità multimodali rappresenterà un altro salto esponenziale. Ma quando i tester dell'IA dicono di non poter escludere "danni catastrofici" e che i modelli a volte nascondono il loro vero intento, potrebbe essere ragionevole temperare l'eccitazione con la cautela.
OpenAI ha appena dato a Gavin Newsom una buona ragione per firmare il SB 1047 Proposta di legge sulla sicurezza dell'IA che si oppone?