A AMD anunciou que a sua GPU MI325X seria lançada no final deste ano e que bate as GPUs H200 da NVIDIA em várias frentes.
A NVIDIA é a atual líder nas vendas de chips para centros de dados, estimando-se que detenha mais de 70% da quota de mercado de chips de IA, mas a Intel e a AMD estão a fazer progressos com as suas próprias ofertas.
No evento Computex 2024, em Taiwan, a CEO da AMD, Lisa Su, anunciou que a GPU Instinct MI325X seria lançada ainda este ano. A AMD afirma que o seu sucessor do MI300 terá mais memória e um débito de dados mais rápido.
A AMD está a ganhar uma maior adoção dos seus chips para centros de dados, com empresas como a Microsoft a incorporá-los nos seus serviços de nuvem Azure, enquanto a Microsoft, Meta e Oracle adoptaram a plataforma MI300. A empresa tem como objetivo $4b em vendas para 2024.
Su afirmou que o MI325X supera significativamente o popular GPU H200 da NVIDIA em termos de capacidade de memória, largura de banda e desempenho.
O MI325X possui até 288 GB de memória HBM3e e 6 TBps de largura de banda. Isto é mais do dobro da memória que o H200 da NVIDIA tem com uma taxa de transferência de dados 30% mais rápida.
Atinge um pico de rendimento teórico de 2,6 petaflops para ponto flutuante de 8 bits (FP8) e 1,3 petaflops com ponto flutuante de 16 bits (FP16). Este valor é 30% superior ao do H200.
Um único servidor composto por oito destas GPUs combinadas na plataforma Instinct MI325X terá memória suficiente para executar modelos avançados de IA com até 1 bilião de parâmetros, o dobro do tamanho suportado por um servidor H200.
Hoje, na Computex, revelámos um roteiro plurianual e alargado do acelerador AMD Instinct que trará uma cadência anual de desempenho de IA líder e capacidades de memória em cada geração. pic.twitter.com/PQKyVAnAVW
- AMD (@AMD) 3 de junho de 2024
Enquanto a NVIDIA H200 é a sua principal GPU atualmente disponível, Su não mencionou como é que o MI325X se iria comparar com o Blackwell As GPUs NVIDIA começarão a ser comercializadas ainda este ano.
Os modelos Blackwell topo de gama terão até 192 GB de memória HBM3e com 8 TB/s de largura de banda. Trata-se de uma quantidade bastante inferior de memória, mas com maior largura de banda do que a oferta de topo da AMD.
A AMD afirma que vai acelerar o desenvolvimento de novos GPUs com uma nova família de GPUs que deverá ser lançada todos os anos. Essa é a a mesma cadência que o CEO da NVIDIA, Jensen Huang, disse que a NVIDIA tem como objetivo.
Em 2050, a AMD lançará o MI350, que utilizará um processo de 3 nm e a arquitetura CDNA 4 da AMD.
Su afirma que a arquitetura CDNA 4 será um salto geracional na computação de IA que proporcionará um aumento de 35x no desempenho de inferência em relação à sua atual arquitetura CDNA 3.
A transferência de todos esses dados entre clusters de GPU e servidores precisa de uma rede de alta velocidade. Su concluiu o seu discurso dizendo que "o futuro das redes de IA tem de ser aberto".
Anunciou que, na semana passada, a AMD se juntou a um consórcio de empresas de alta computação com o objetivo de desenvolver uma norma de rede de elevada largura de banda e baixa latência para ligar centenas de aceleradores de IA.
A NVIDIA não foi convidada a participar no projeto e tem a sua própria norma proprietária. Su afirmou que a norma UALink será uma "óptima alternativa às opções proprietárias".
As linhas de batalha das GPU de IA foram traçadas com muito pouca subtileza e a NVIDIA deve estar a começar a sentir o calor da AMD e da Intel.