Un nuovo approccio potrebbe rendere i modelli linguistici di grandi dimensioni 300 volte più veloci

6 dicembre 2023

Gli scienziati del Politecnico di Zurigo hanno scoperto che i Large Language Models (LLM) devono utilizzare solo una piccola frazione dei loro neuroni per le inferenze individuali. Il loro nuovo approccio promette di rendere gli LLM molto più veloci.

Per iniziare a capire come sono riusciti a velocizzare i modelli di IA, dobbiamo avere un'idea approssimativa di alcuni degli elementi tecnici che compongono un modello linguistico di IA.

I modelli di intelligenza artificiale come GPT o Llama sono costituiti da reti feedforward, un tipo di rete neurale artificiale.

Le reti feedforward (FF) sono tipicamente organizzate in strati, con ogni strato di neuroni che riceve l'input dallo strato precedente e invia l'output allo strato successivo.

Ciò comporta la moltiplicazione della matrice densa (DMM), che richiede che ogni neurone del FF esegua i calcoli su tutti gli ingressi dello strato precedente. Questo è il motivo per cui Nvidia vende così tante delle sue GPU perché questo processo richiede molta potenza di elaborazione.

I ricercatori ha utilizzato le reti Fast Feedforward (FFF) per rendere questo processo molto più veloce. Una FFF prende ogni strato di neuroni, lo suddivide in blocchi e seleziona solo i blocchi più rilevanti in base all'input. Questo processo equivale a eseguire una moltiplicazione matriciale condizionale (CMM).

Ciò significa che invece di coinvolgere tutti i neuroni di uno strato nel calcolo, ne viene coinvolta solo una frazione molto piccola.

Pensate a come smistare una pila di posta per trovare una lettera destinata a voi. Invece di leggere il nome e l'indirizzo su ogni singola lettera, potreste prima ordinarle per codice postale e poi concentrarvi solo su quelle relative alla vostra zona.

Allo stesso modo, le FFF identificano solo i pochi neuroni necessari per ogni calcolo, con il risultato di una frazione dell'elaborazione richiesta rispetto alle FF tradizionali.

Quanto più veloce?

I ricercatori hanno testato il loro metodo su una variante del modello BERT di Google che hanno chiamato UltraFastBERT. UltraFastBERT è composto da 4095 neuroni, ma impegna selettivamente solo 12 neuroni per ogni strato di inferenza.

Ciò significa che UltraFastBERT richiede circa 0,03% dei suoi neuroni per essere coinvolto nell'elaborazione durante l'inferenza, mentre il BERT normale avrebbe bisogno di 100% dei suoi neuroni coinvolti nel calcolo.

In teoria, ciò significa che UltraFastBERT sarebbe 341 volte più veloce di BERT o di GPT-3.

Perché diciamo "teoricamente" quando i ricercatori ci assicurano che il loro metodo funziona? Perché hanno dovuto creare un workaround software per far funzionare il loro FFF con il BERT e hanno ottenuto un miglioramento della velocità solo di 78 volte durante i test reali.

È un segreto

Il documento di ricerca spiega che "la moltiplicazione di matrici dense è l'operazione matematica più ottimizzata nella storia dell'informatica. Sono stati compiuti sforzi enormi per progettare memorie, chip, set di istruzioni e routine software che la eseguano il più velocemente possibile. Molti di questi progressi sono stati... tenuti riservati ed esposti all'utente finale solo attraverso potenti ma restrittive interfacce di programmazione".

In pratica, stanno dicendo che gli ingegneri che hanno scoperto i modi più efficienti per elaborare la matematica necessaria per le reti FF tradizionali mantengono segreti i loro software e algoritmi di basso livello e non permettono di guardare il loro codice.

Se i cervelli dietro i progetti delle GPU Intel o Nvidia consentissero l'accesso al codice di basso livello per implementare le reti FFF nei modelli di intelligenza artificiale, il miglioramento della velocità di 341 volte potrebbe essere una realtà.

Ma lo faranno? Se poteste progettare le vostre GPU in modo che le persone possano acquistarne 99,7% in meno per eseguire la stessa quantità di elaborazione, lo fareste? L'economia avrà voce in capitolo, ma le reti FFF potrebbero rappresentare il prossimo passo da gigante nell'IA.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni