Il rilascio di modelli di IA più piccoli e più efficienti, come l'innovativo modello Mixtral 8x7B di Mistral, ha fatto sì che i concetti di "Miscela di esperti" (MoE) e "Sparsità" diventassero temi caldi.
Questi termini sono passati dall'ambito dei complessi documenti di ricerca sull'intelligenza artificiale agli articoli di cronaca che riportano il rapido miglioramento dei Large Language Models (LLM).
Fortunatamente, non è necessario essere uno scienziato dei dati per avere un'idea generale di cosa siano MoE e Sparsity e del perché questi concetti siano importanti.
Miscela di esperti
I LLM come il GPT-3 si basano su un'architettura a rete densa. Questi modelli sono costituiti da strati di reti neurali in cui ogni neurone di uno strato è collegato a tutti i neuroni degli strati precedenti e successivi.
Tutti i neuroni sono coinvolti sia durante l'addestramento sia durante l'inferenza, il processo di generazione di una risposta alla richiesta. Questi modelli sono ottimi per affrontare un'ampia varietà di compiti, ma utilizzano molta potenza di calcolo perché ogni parte della rete partecipa all'elaborazione di un input.
Un modello basato su un'architettura MoE suddivide gli strati in un certo numero di "esperti", dove ogni esperto è una rete neurale addestrata su funzioni specifiche. Quindi, quando si vede un modello chiamato Mixtral 8x7B significa che ha 8 strati di esperti con 7 miliardi di parametri ciascuno.
Ogni esperto è addestrato per essere molto bravo in un aspetto ristretto del problema generale, proprio come gli specialisti di un campo.
Una volta richiesto, una Gating Network scompone il messaggio in diversi token e decide quale esperto è più adatto a elaborarlo. I risultati di ciascun esperto vengono poi combinati per fornire l'output finale.
Pensate al MoE come a un gruppo di artigiani con competenze molto specifiche per la ristrutturazione della vostra casa. Invece di assumere un tuttofare generico (rete fitta) per fare tutto, si chiede a John, l'idraulico, di fare l'impianto idraulico e a Peter, l'elettricista, di fare l'impianto elettrico.
Questi modelli sono più veloci da addestrare perché non è necessario addestrare l'intero modello per fare tutto.
I modelli MoE hanno anche un'inferenza più veloce rispetto ai modelli densi con lo stesso numero di parametri. Questo è il motivo per cui Mixtral 8x7B con un totale di 56 miliardi di parametri può eguagliare o battere GPT-3.5 che ha 175 miliardi di parametri.
Si dice che Il GPT-4 utilizza un'architettura MoE con 16 esperti, mentre Gemelli impiega un'architettura densa.
Scarsità
La sparsità si riferisce all'idea di ridurre il numero di elementi attivi in un modello, come i neuroni o i pesi, senza compromettere in modo significativo le sue prestazioni.
Se i dati di input per i modelli di intelligenza artificiale, come il testo o le immagini, contengono molti zeri, la tecnica di rappresentazione rada dei dati non comporta uno spreco di risorse per memorizzare gli zeri.
In una rete neurale rada i pesi, o la forza di connessione tra i neuroni, sono spesso pari a zero. La sparsità pota, o rimuove, questi pesi in modo che non vengano inclusi durante l'elaborazione. Anche un modello MoE è naturalmente rado, perché può avere un esperto coinvolto nell'elaborazione mentre gli altri rimangono inattivi.
La spazialità può portare a modelli che richiedono meno calcoli e meno memoria. I modelli di intelligenza artificiale che verranno eseguiti sul dispositivo si baseranno molto sulla spazialità.
Si può pensare alla sparsità come se si andasse in una biblioteca per trovare una risposta a una domanda. Se la biblioteca ha miliardi di libri, si potrebbe aprire ogni libro della biblioteca e alla fine trovare le risposte pertinenti in alcuni dei libri. Questo è ciò che fa un modello non-sparso.
Se ci liberiamo di molti libri che hanno per lo più pagine bianche o informazioni irrilevanti, è più facile trovare i libri rilevanti per la nostra domanda, in modo da aprire meno libri e trovare la risposta più velocemente.
Se vi piace rimanere aggiornati sugli ultimi sviluppi dell'IA, aspettatevi di vedere MoE e Sparsity citati più spesso. Gli LLM stanno per diventare molto più piccoli e veloci.