OpenAI ha un modello di AI pericoloso che ha portato al licenziamento di Altman?

23 novembre 2023

Superintelligenza OpenAI

Un altro giorno, un altro colpo di scena nella saga OpenAI-Altman. 

Questa volta, il motivo del licenziamento di Altman è un modello di intelligenza artificiale apocalitticamente potente che si trova in un laboratorio di ricerca di OpenAI, o almeno questo è quanto suggeriscono le fonti giornalistiche.

Pochi giorni prima dell'uscita del film di Sam Altman partenza temporanea da OpenAI, fonti intervistate da Reuters sostengono che i ricercatori dell'azienda abbiano inviato una lettera di avvertimento al consiglio di amministrazione.

Questa lettera, che non è stata resa pubblica fino a poco tempo fa, ha messo in allarme su una scoperta dell'intelligenza artificiale. Secondo due addetti ai lavori che contattato da Reutersè abbastanza potente da minacciare l'umanità.

Secondo le fonti, la modella in questione potrebbe essere stata determinante negli eventi che hanno portato al licenziamento di Altman. 

Il progetto in questione è noto come Q* (pronunciato Q-Star). Q* è visto da alcuni esponenti di OpenAI come una potenziale pietra miliare nella ricerca di intelligenza artificiale generale (AGI). Q* è un'amalgama di approcci all'apprendimento automatico, tra cui il Q-learning, che risale agli anni Ottanta. 

Mentre i media amano le storie apocalittiche sull'intelligenza artificiale, queste fonti anonime hanno indicato che la decisione del consiglio di amministrazione di licenziare Altman è stata influenzata dalla preoccupazione di commercializzare prematuramente Q* senza comprenderne appieno le implicazioni. 

Tuttavia, la Reuters non è stata in grado di confermare in modo indipendente le capacità di Q* descritte dai ricercatori.

Inoltre, la Reuters non ha avuto accesso alla lettera e il personale responsabile della sua stesura non ha risposto alle richieste di informazioni. 

Non ci lascia molto su cui lavorare. Il fatto che quasi tutti i dipendenti di OpenAI abbiano invocato il ritorno di Altman rende improbabile che ci fossero solo due persone preoccupate per Q*.

In seguito al rifiuto di Altman di temere per Q*, il consiglio di amministrazione ha deciso di licenziare Altman, o almeno questo è quanto sostengono la lettera e le notizie ad essa associate. 

Ma c'è qualcosa di concreto in tutto questo? O è solo un'altra strana e speculativa svolta nel dramma del consiglio di amministrazione di OpenAI?

Che cos'è Q* e come funziona?

Per quanto speculativo, Q* (Q-Star) potrebbe combinare elementi degli algoritmi di ricerca Q-learning e A* (A Star) ottimizzati attraverso un processo chiamato Reinforcement Learning from Human Feedback (RLHF). 

Non è del tutto unico, e già in passato sono state ipotizzate tecniche legate a Q*. Questi possono darci qualche indizio sul suo funzionamento. 

Analizziamo i singoli componenti per capire come potrebbero interagire in Q*:

Apprendimento in Q

Il Q-learning è un tipo di algoritmo di apprendimento per rinforzo che esiste da circa 30 anni. È progettato per aiutare un agente a imparare le azioni migliori da intraprendere in un determinato stato per massimizzare una ricompensa. Ciò avviene attraverso l'apprendimento di una funzione di valore nota come funzione Q, che stima l'uso previsto di intraprendere una determinata azione in un determinato stato.

Nel contesto di modelli di intelligenza artificiale generativa come quelli sviluppati da OpenAI, il Q-learning potrebbe determinare la sequenza ottimale di parole o risposte in una conversazione o in un compito di risoluzione di un problema. 

Ogni parola o risposta può essere vista come un'azione e gli stati possono essere il contesto o la sequenza di parole già generate.

Un algoritmo di ricerca in Q

A* è un popolare algoritmo di ricerca sui grafi, noto per la sua efficienza ed efficacia nel trovare il percorso più breve da un nodo iniziale a un nodo finale in un grafo. 

Il fatto che Q* necessiti di "vaste risorse di calcolo" e sia in grado di risolvere problemi matematici suggerisce che A* potrebbe essere integrato con il Q-learning per gestire processi di ragionamento complessi e in più fasi. 

L'algoritmo potrebbe ottimizzare il processo decisionale in più fasi, memorizzando i risultati intermedi e cercando in modo efficiente tra le possibili sequenze di azioni (o parole/risposte).

Ruolo di RLHF

La RLHF prevede l'addestramento di modelli di intelligenza artificiale utilizzando il feedback umano per guidare il processo di apprendimento. Ciò può includere la dimostrazione dei risultati desiderati, la correzione degli errori e la fornitura di feedback sfumati per affinare la comprensione e le prestazioni del modello.

In Q*, l'RLHF potrebbe essere utilizzato per affinare la capacità del modello di prendere decisioni e risolvere problemi, soprattutto in scenari complessi e a più turni, dove la comprensione e il ragionamento sfumato sono fondamentali.

Questo è il modo in cui Q* potrebbe funzionare, ma non ci dice davvero come o perché sia così allarmante, né offre alcuna chiarezza sulla veridicità delle affermazioni della lettera.

Solo il tempo ci dirà se Q* è autentico e se presenta qualche rischio. 

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni