Nvidia skalerte og optimaliserte Eos AI-superdatamaskinen for å sette nye rekorder for MLPerf AI-trening.
Da Nvidia slo på AI-superdatamaskinen Eos i mai, ble 10 752 NVIDIA H100 Tensor Core GPU-er vekket til live, og de har nettopp blitt testet i den virkelige verden.
Denne enestående prosessorkraften sammen med nye programvareoptimaliseringer har gjort det mulig for Eos å presse MLPerf målestokk inn i rekordterritorium.
MLPerf-referansen med åpen kildekode er et sett med trenings- og inferenstester som er utviklet for å måle ytelsen til maskinlæringsarbeidsbelastninger på virkelige datasett.
Et av de fremste resultatene var at Eos klarte å trene opp en GPT-3-modell med 175 milliarder parametere på én milliard tokens på bare 3,9 minutter.
Da Nvidia satte rekorden på denne målestokken for mindre enn 6 måneder siden, tok det nesten tre ganger så lang tid med en tid på 10,9 minutter.
Nvidia klarte også å oppnå en effektivitet på 93% under testene, noe som betyr at de brukte nesten all datakraften som teoretisk sett var tilgjengelig i Eos.
Microsoft Azure, som bruker omtrent det samme H100-oppsettet som Eos i sin virtuelle ND H100 v5-maskin, kom innenfor 2% av Nvidias testresultater i sine MLPerf-tester.
![](https://dailyai.com/wp-content/uploads/2023/11/Nvidia-H100-vs-A100-vs-V100.jpeg)
I 2018 sa Jensen Huang, administrerende direktør i Nvidia, at ytelsen til GPU-er vil mer enn dobles hvert annet år. Denne påstanden ble kalt Haungs lov, og den har vist seg å være sann, ettersom den etterlater Moores lov er i ferd med å forsvinne i databehandlingens bakspeil.
Hva så?
MLPerf-referansetreningstesten som Nvidia klarte, bruker bare en del av hele datasettet som GPT-3 ble trent på. Hvis du tar tiden Eos satte i MLPerf-testen og ekstrapolerer for hele GPT-3-datasettet, kan den trene hele modellen på bare 8 dager.
Hvis du hadde forsøkt å gjøre det samme med det tidligere toppmoderne systemet, som besto av 512 A100 GPU-er, ville det tatt rundt 170 dager.
Hvis du skulle lære opp en ny AI-modell, kan du tenke deg forskjellen i tid til markedet og kostnader som 8 dager versus 170 dager utgjør?
H100-GPU-ene er ikke bare mye kraftigere enn A100-GPU-ene, de er også opptil 3,5 ganger mer energieffektive. Energiforbruk og AIs karbonfotavtrykk er reelle problemer som må løses.
For å få et inntrykk av hvor raskt AI-prosesseringen blir bedre, kan du tenke på ChatGPT, som ble satt i drift for litt under ett år siden. Den underliggende modellen, GPT-3, ble trent opp på 10 240 Nvidia V100 GPU-er.
Mindre enn ett år senere har Eos 28 ganger så stor prosessorkraft som det oppsettet, med en 3,5 ganger så stor effektivitetsforbedring.
![](https://dailyai.com/wp-content/uploads/2023/11/GPT-3-processing-vs-Nvidia-Eos.png)
Da OpenAIs Sam Altman avsluttet den siste DevDay, sa han at prosjektene OpenAI jobbet med, ville få de siste utgivelsene til å se gammeldagse ut.
Med tanke på spranget i prosessorkraft som selskaper som Nvidia oppnår, oppsummerer Altmans påstand sannsynligvis fremtiden for AI-industrien som helhet.