Il gruppo di ricerca sull'intelligenza artificiale applicata Nous Research ha sviluppato un ottimizzatore per l'addestramento dei modelli di intelligenza artificiale che potrebbe cambiare radicalmente il modo in cui verranno addestrati i modelli di intelligenza artificiale del futuro.
Tradizionalmente, l'addestramento di un modello di intelligenza artificiale richiede data center massicci dotati di GPU come le H100 di NVIDIA e interconnessioni ad alta velocità per sincronizzare gli aggiornamenti dei gradienti e dei parametri tra le GPU.
Ogni fase di addestramento richiede la condivisione di grandi quantità di dati tra migliaia di GPU. La larghezza di banda richiesta significa che queste GPU devono essere cablate e fisicamente vicine l'una all'altra. Con DisTrO, Nous Research potrebbe aver trovato un modo per cambiare completamente questa situazione.
Durante l'addestramento del modello, un algoritmo di ottimizzazione regola i parametri del modello per minimizzare la funzione di perdita. La funzione di perdita misura la differenza tra le previsioni del modello e i risultati effettivi e l'obiettivo è ridurre il più possibile questa perdita attraverso l'addestramento iterativo.
DisTrO-AdamW è una variante del popolare algoritmo di ottimizzazione AdamW. DisTrO è l'acronimo di "Distributed Training Over-the-Internet" (formazione distribuita via Internet) e indica ciò che lo rende così speciale.
DisTrO-AdamW riduce drasticamente la quantità di comunicazione inter-GPU necessaria durante l'addestramento di reti neurali di grandi dimensioni. E lo fa senza sacrificare il tasso di convergenza o l'accuratezza del processo di addestramento.
Nei test empirici, DisTrO-AdamW ha ottenuto una riduzione di 857 volte della comunicazione inter-GPU. Ciò significa che l'approccio DisTrO può addestrare i modelli con una precisione e una velocità comparabili, ma senza la necessità di un hardware costoso e ad alta larghezza di banda.
Ad esempio, durante il pre-addestramento di un LLM da 1,2 miliardi, DisTrO-AdamW ha eguagliato le prestazioni dei metodi tradizionali, riducendo al contempo la larghezza di banda richiesta da 74,4 GB a soli 86,8 MB per fase di addestramento.
E se si potesse utilizzare tutta la potenza di calcolo del mondo per addestrare un modello di IA condiviso e open source?
Rapporto preliminare: https://t.co/b1XgJylsnV
Nous Research è orgogliosa di pubblicare un rapporto preliminare su DisTrO (Distributed Training Over-the-Internet), una famiglia di... pic.twitter.com/h2gQJ4m7lB
- Ricerca Nous (@NousResearch) 26 agosto 2024
Implicazioni per la formazione sull'IA
L'impatto di DisTrO sul panorama dell'IA potrebbe essere profondo. Riducendo l'overhead di comunicazione, DisTrO consente l'addestramento decentralizzato di modelli di grandi dimensioni. Invece di un data center con migliaia di GPU e switch ad alta velocità, si potrebbe addestrare un modello su hardware commerciale distribuito e collegato via Internet.
Si potrebbe avere una comunità di persone che contribuiscono all'accesso al proprio hardware informatico per addestrare un modello. Immaginate milioni di PC inattivi o di piattaforme ridondanti per il mining di Bitcoin che lavorano insieme per addestrare un modello open source. DisTrO lo rende possibile e non c'è praticamente alcun sacrificio nel tempo di addestramento del modello o nella sua accuratezza.
Nous Research ammette di non essere sicura del motivo per cui il suo approccio funziona così bene e che sono necessarie ulteriori ricerche per verificare se il sistema è adattabile a modelli più grandi.
Se così fosse, la formazione di modelli massivi potrebbe non essere più monopolizzata dalle aziende di Big Tech con i fondi necessari per i grandi centri dati. Potrebbe anche avere un grande impatto, riducendo la impatto ambientale di centri dati affamati di energia e di acqua.
Il concetto di formazione decentralizzata potrebbe anche far sì che alcuni aspetti dei regolamenti come Proposta di legge SB 1047 della California moot. Il disegno di legge prevede controlli di sicurezza aggiuntivi per i modelli che costano più di $100m per la formazione.
Con DisTrO, una comunità di persone anonime con hardware distribuito potrebbe creare un proprio "supercomputer" per addestrare un modello. Potrebbe anche annullare la US Gli sforzi del governo per fermare la Cina dall'importazione delle GPU più potenti di NVIDIA.
In un mondo in cui l'IA sta diventando sempre più importante, DisTrO offre uno scorcio di futuro in cui lo sviluppo di questi potenti strumenti è più inclusivo, sostenibile e diffuso.