Nvidia setter nye rekorder for AI-trening i MLPerf-benchmarks

10. november 2023

nvidia-aksjer

Nvidia skalerte og optimaliserte Eos AI-superdatamaskinen for å sette nye rekorder for MLPerf AI-trening.

Da Nvidia slo på AI-superdatamaskinen Eos i mai, ble 10 752 NVIDIA H100 Tensor Core GPU-er vekket til live, og de har nettopp blitt testet i den virkelige verden.

Denne enestående prosessorkraften sammen med nye programvareoptimaliseringer har gjort det mulig for Eos å presse MLPerf målestokk inn i rekordterritorium.

MLPerf-referansen med åpen kildekode er et sett med trenings- og inferenstester som er utviklet for å måle ytelsen til maskinlæringsarbeidsbelastninger på virkelige datasett.

Et av de fremste resultatene var at Eos klarte å trene opp en GPT-3-modell med 175 milliarder parametere på én milliard tokens på bare 3,9 minutter.

Da Nvidia satte rekorden på denne målestokken for mindre enn 6 måneder siden, tok det nesten tre ganger så lang tid med en tid på 10,9 minutter.

Nvidia klarte også å oppnå en effektivitet på 93% under testene, noe som betyr at de brukte nesten all datakraften som teoretisk sett var tilgjengelig i Eos.

Microsoft Azure, som bruker omtrent det samme H100-oppsettet som Eos i sin virtuelle ND H100 v5-maskin, kom innenfor 2% av Nvidias testresultater i sine MLPerf-tester.

Nvidia-maskinvare brukt i MLPerf-tester. Kilde: Nvidia Nvidia

I 2018 sa Jensen Huang, administrerende direktør i Nvidia, at ytelsen til GPU-er vil mer enn dobles hvert annet år. Denne påstanden ble kalt Haungs lov, og den har vist seg å være sann, ettersom den etterlater Moores lov er i ferd med å forsvinne i databehandlingens bakspeil.

Hva så?

MLPerf-referansetreningstesten som Nvidia klarte, bruker bare en del av hele datasettet som GPT-3 ble trent på. Hvis du tar tiden Eos satte i MLPerf-testen og ekstrapolerer for hele GPT-3-datasettet, kan den trene hele modellen på bare 8 dager.

Hvis du hadde forsøkt å gjøre det samme med det tidligere toppmoderne systemet, som besto av 512 A100 GPU-er, ville det tatt rundt 170 dager.

Hvis du skulle lære opp en ny AI-modell, kan du tenke deg forskjellen i tid til markedet og kostnader som 8 dager versus 170 dager utgjør?

H100-GPU-ene er ikke bare mye kraftigere enn A100-GPU-ene, de er også opptil 3,5 ganger mer energieffektive. Energiforbruk og AIs karbonfotavtrykk er reelle problemer som må løses.

For å få et inntrykk av hvor raskt AI-prosesseringen blir bedre, kan du tenke på ChatGPT, som ble satt i drift for litt under ett år siden. Den underliggende modellen, GPT-3, ble trent opp på 10 240 Nvidia V100 GPU-er.

Mindre enn ett år senere har Eos 28 ganger så stor prosessorkraft som det oppsettet, med en 3,5 ganger så stor effektivitetsforbedring.

Prosessorkraft som trente GPT-3 vs Nvidia Eos

Da OpenAIs Sam Altman avsluttet den siste DevDay, sa han at prosjektene OpenAI jobbet med, ville få de siste utgivelsene til å se gammeldagse ut.

Med tanke på spranget i prosessorkraft som selskaper som Nvidia oppnår, oppsummerer Altmans påstand sannsynligvis fremtiden for AI-industrien som helhet.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser