AMD ha annunciato che la sua GPU MI325X verrà rilasciata entro la fine dell'anno e che è in grado di battere le GPU H200 di NVIDIA su diversi fronti.
NVIDIA è l'attuale leader nelle vendite di chip per data center e si stima che detenga oltre il 70% della quota di mercato per i chip AI, ma Intel e AMD stanno facendo passi da gigante con le proprie offerte.
In occasione dell'evento Computex 2024 di Taiwan, il CEO di AMD Lisa Su ha annunciato che la GPU Instinct MI325X verrà rilasciata nel corso dell'anno. AMD afferma che il successore della MI300 sarà caratterizzato da una maggiore quantità di memoria e da un throughput di dati più veloce.
AMD sta ottenendo una più ampia adozione dei suoi chip per data center, con aziende come Microsoft che li incorporano nei propri servizi cloud Azure, mentre Microsoft, Meta e Oracle hanno adottato la piattaforma MI300. L'azienda punta a un fatturato di $4b per il 2024.
Su ha dichiarato che la MI325X supera in modo significativo la popolare GPU H200 di NVIDIA in termini di capacità di memoria, larghezza di banda e prestazioni.
L'MI325X offre fino a 288 GB di memoria HBM3e e 6 TBps di larghezza di banda. Si tratta di più del doppio della memoria dell'H200 di NVIDIA, con un throughput di dati superiore di 30%.
Raggiunge un throughput teorico di picco di 2,6 petaflop per la virgola mobile a 8 bit (FP8) e di 1,3 petaflop per la virgola mobile a 16 bit (FP16). Si tratta di 30% in più rispetto all'H200.
Un singolo server composto da otto di queste GPU combinate sulla piattaforma Instinct MI325X avrà memoria sufficiente per eseguire modelli di intelligenza artificiale avanzati fino a 1.000 miliardi di parametri, il doppio della dimensione supportata da un server H200.
Oggi al Computex abbiamo presentato una roadmap pluriennale e ampliata per gli acceleratori AMD Instinct, che porterà una cadenza annuale di prestazioni di AI leader e capacità di memoria a ogni generazione. pic.twitter.com/PQKyVAnAVW
- AMD (@AMD) 3 giugno 2024
Mentre NVIDIA H200 è la sua GPU di punta attualmente disponibile, Su non ha menzionato come la MI325X si collocherà rispetto alla Blackwell Le GPU NVIDIA inizieranno a essere distribuite nel corso dell'anno.
I modelli Blackwell di fascia alta avranno fino a 192 GB di memoria HBM3e con 8 TB/s di larghezza di banda. Si tratta di una discreta quantità di memoria in meno ma con un'ampiezza di banda maggiore rispetto all'offerta top di AMD.
AMD ha dichiarato di voler accelerare lo sviluppo di nuove GPU con una nuova famiglia di GPU che dovrebbe essere rilasciata ogni anno. Questo è il stessa cadenza che il CEO di NVIDIA, Jensen Huang, ha dichiarato essere l'obiettivo di NVIDIA.
Nel 2050 AMD rilascerà il modello MI350, che utilizzerà un processo a 3 nm e l'architettura CDNA 4 di AMD.
Su afferma che l'architettura CDNA 4 rappresenterà un salto generazionale nell'elaborazione dell'intelligenza artificiale e fornirà prestazioni di inferenza 35 volte superiori rispetto all'attuale architettura CDNA 3.
Lo spostamento di tutti questi dati tra cluster di GPU e server richiede una rete ad alta velocità. Su ha concluso il suo discorso affermando che "il futuro della rete AI deve essere aperto".
Ha annunciato che la scorsa settimana AMD si è unita a un consorzio di aziende di high computing con l'obiettivo di sviluppare uno standard di rete ad alta larghezza di banda e bassa latenza per collegare centinaia di acceleratori AI.
NVIDIA non è stata invitata a partecipare al progetto e ha un proprio standard proprietario. Su ha dichiarato che lo standard UALink sarà una "grande alternativa alle opzioni proprietarie".
Le linee di battaglia per le GPU AI sono state tracciate con pochissima sottigliezza e NVIDIA deve iniziare a sentire il calore di AMD e Intel.