Il futuro della formazione AI: L'approccio innovativo di DisTrO

27 agosto 2024

  • Il gruppo di ricerca sull'intelligenza artificiale Nous Research ha sviluppato un ottimizzatore per l'addestramento dell'intelligenza artificiale chiamato DisTrO.
  • DisTrO consente di addestrare i modelli di intelligenza artificiale utilizzando hardware commerciale con connessioni Internet regolari.
  • L'addestramento decentralizzato di modelli di grandi dimensioni potrebbe ridurre la dipendenza dai costosi data center delle GPU

Il gruppo di ricerca sull'intelligenza artificiale applicata Nous Research ha sviluppato un ottimizzatore per l'addestramento dei modelli di intelligenza artificiale che potrebbe cambiare radicalmente il modo in cui verranno addestrati i modelli di intelligenza artificiale del futuro.

Tradizionalmente, l'addestramento di un modello di intelligenza artificiale richiede data center massicci dotati di GPU come le H100 di NVIDIA e interconnessioni ad alta velocità per sincronizzare gli aggiornamenti dei gradienti e dei parametri tra le GPU.

Ogni fase di addestramento richiede la condivisione di grandi quantità di dati tra migliaia di GPU. La larghezza di banda richiesta significa che queste GPU devono essere cablate e fisicamente vicine l'una all'altra. Con DisTrO, Nous Research potrebbe aver trovato un modo per cambiare completamente questa situazione.

Durante l'addestramento del modello, un algoritmo di ottimizzazione regola i parametri del modello per minimizzare la funzione di perdita. La funzione di perdita misura la differenza tra le previsioni del modello e i risultati effettivi e l'obiettivo è ridurre il più possibile questa perdita attraverso l'addestramento iterativo.

DisTrO-AdamW è una variante del popolare algoritmo di ottimizzazione AdamW. DisTrO è l'acronimo di "Distributed Training Over-the-Internet" (formazione distribuita via Internet) e indica ciò che lo rende così speciale.

DisTrO-AdamW riduce drasticamente la quantità di comunicazione inter-GPU necessaria durante l'addestramento di reti neurali di grandi dimensioni. E lo fa senza sacrificare il tasso di convergenza o l'accuratezza del processo di addestramento.

Nei test empirici, DisTrO-AdamW ha ottenuto una riduzione di 857 volte della comunicazione inter-GPU. Ciò significa che l'approccio DisTrO può addestrare i modelli con una precisione e una velocità comparabili, ma senza la necessità di un hardware costoso e ad alta larghezza di banda.

Ad esempio, durante il pre-addestramento di un LLM da 1,2 miliardi, DisTrO-AdamW ha eguagliato le prestazioni dei metodi tradizionali, riducendo al contempo la larghezza di banda richiesta da 74,4 GB a soli 86,8 MB per fase di addestramento.

Implicazioni per la formazione sull'IA

L'impatto di DisTrO sul panorama dell'IA potrebbe essere profondo. Riducendo l'overhead di comunicazione, DisTrO consente l'addestramento decentralizzato di modelli di grandi dimensioni. Invece di un data center con migliaia di GPU e switch ad alta velocità, si potrebbe addestrare un modello su hardware commerciale distribuito e collegato via Internet.

Si potrebbe avere una comunità di persone che contribuiscono all'accesso al proprio hardware informatico per addestrare un modello. Immaginate milioni di PC inattivi o di piattaforme ridondanti per il mining di Bitcoin che lavorano insieme per addestrare un modello open source. DisTrO lo rende possibile e non c'è praticamente alcun sacrificio nel tempo di addestramento del modello o nella sua accuratezza.

Nous Research ammette di non essere sicura del motivo per cui il suo approccio funziona così bene e che sono necessarie ulteriori ricerche per verificare se il sistema è adattabile a modelli più grandi.

Se così fosse, la formazione di modelli massivi potrebbe non essere più monopolizzata dalle aziende di Big Tech con i fondi necessari per i grandi centri dati. Potrebbe anche avere un grande impatto, riducendo la impatto ambientale di centri dati affamati di energia e di acqua.

Il concetto di formazione decentralizzata potrebbe anche far sì che alcuni aspetti dei regolamenti come Proposta di legge SB 1047 della California moot. Il disegno di legge prevede controlli di sicurezza aggiuntivi per i modelli che costano più di $100m per la formazione.

Con DisTrO, una comunità di persone anonime con hardware distribuito potrebbe creare un proprio "supercomputer" per addestrare un modello. Potrebbe anche annullare la US Gli sforzi del governo per fermare la Cina dall'importazione delle GPU più potenti di NVIDIA.

In un mondo in cui l'IA sta diventando sempre più importante, DisTrO offre uno scorcio di futuro in cui lo sviluppo di questi potenti strumenti è più inclusivo, sostenibile e diffuso.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni