NVIDIA CEO Jensen Huang beskrev for nylig i detaljer virksomhedens nyeste AI-acceleratorchip, kaldet Blackwell, på virksomhedens Computex 2024 keynote.
Med Blackwell sigter NVIDIA mod at cementere sin dominans på det spirende AI-hardwareområde og samtidig bevise sin evne til progressiv innovation.
Med en markedsværdi, der nærmer sig $3 billioner, har NVIDIA's opstigning til den øverste ledelse af AI-infrastrukturen været intet mindre end forbløffende.
Huang ser ingen tegn på, at udviklingen går i stå, da virksomheden fortsætter med at smadre analytikernes forventninger.
Men hvad fortæller specifikationerne og tallene os egentlig om Blackwells evner og potentielle indflydelse?
Lad os se nærmere på, hvordan det kan påvirke AI-industrien og samfundet som helhed.
Rå regnekraft
Hovedtallet er, at en enkelt Blackwell "superchip" - som består af to GPU-dies, der er forbundet med et højhastighedslink - indeholder hele 208 milliarder transistorer.
Det er næsten en tredobling i forhold til NVIDIAs tidligere generation af Hopper-chippen. NVIDIA hævder, at det betyder en 30 gange højere hastighed på AI-inferensopgaver sammenlignet med Hopper.
For at sætte det i perspektiv, så lad os se på et eksempel på en stor sprogmodel (LLM) med 100 milliarder parametre, i samme størrelsesorden som GPT-3.
At træne en sådan model på NVIDIA's tidligere generation af A100 GPU'er ville kræve, at omkring 1.024 A100-chips kørte i en måned.
Med Blackwell hævder NVIDIA, at den samme model kan trænes på lidt over en uge ved hjælp af 256 Blackwell-chips - en firedobling af træningstiden.
Energieffektivitet
På trods af de dramatiske præstationsforbedringer siger NVIDIA, at Blackwell kan reducere omkostninger og energiforbrug med op til 25 gange sammenlignet med Hopper for visse AI-arbejdsbelastninger.
Virksomheden gav et eksempel på træning af en model med 1,8 billioner parametre, som tidligere ville have krævet 8.000 Hopper GPU'er, der trak 15 megawatt strøm.
Med Blackwell siger NVIDIA, at dette kan opnås med 2.000 GPU'er, der kun bruger 4 megawatt.
Selv om et strømforbrug på 4 megawatt til en enkelt AI-træningskørsel stadig er betydeligt, er det imponerende, at Blackwell kan give et næsten firedobbelt løft i energieffektiviteten til en så krævende opgave.
Lad os ikke undervurdere tallene her. For at sætte tallet på 4 megawatt i perspektiv svarer det til det gennemsnitlige strømforbrug i mere end 3.000 amerikanske husstande.
Så en enkelt Blackwell-drevet AI-supercomputer, der træner en topmoderne model, vil bruge lige så meget energi som en hel by i løbet af træningskørslen.
Og det er kun for én træningskørsel - organisationer, der udvikler store AI-modeller, forfiner ofte deres modeller gennem mange iterationer, og så skal vi tænke på, at der er hundredvis af organisationer, der udvikler store modeller.
Miljømæssige omkostninger
Selv med forbedret energieffektivitet kan en udbredt anvendelse af Blackwell stadig øge industriens samlede energiforbrug betydeligt.
Lad os for eksempel antage, at der i øjeblikket er 100.000 højtydende GPU'er, der bruges til AI-træning og inferens på verdensplan.
Hvis Blackwell muliggør en 10X stigning i anvendelsen af AI i de kommende år, hvilket ikke virker som et usædvanligt tal at hive ud af luften, vil det betyde, at 1 million Blackwell GPU'er er i brug.
Med det strømforbrug på 1,875 kilowatt pr. GPU, som Huang nævnte, ville 1 million Blackwell GPU'er forbruge 1,875 gigawatt strøm - næsten det samme som to gennemsnitlige atomkraftværker.
Atomkraftværker tager mange år at bygge og koster billioner. De er primært designet til at understøtte landsdækkende infrastruktur, ikke bare til at træne AI-modeller.
Tidligere analyser har forudset, at AI-arbejdsbelastninger kan forbruge lige så meget strøm som et lille land i 2027, og det er svært at se præcist, hvordan disse krav med rimelighed skal opfyldes.
Vandforbruget er også et kolossalt problem, og Microsoft har afsløret enorme stigninger i deres vandforbrug fra 2022 til 2023som korrelerede med træning af AI-modeller og efterspørgsel efter datacentre.
Dele af USA har allerede oplevet vandmangel på grund af datacentrenes forbrug.
Hvis vi ikke finder bedre måder at drive AI-hardware på med vedvarende energi, vil CO2-udledningen og vandforbruget fra Blackwell-drevet AI være enormt, og NVIDIA vil fremskynde "hyperscale"-æraen for AI-modeltræning.
Og ud over energiforbruget alene er det vigtigt at overveje andre miljøomkostninger, som f.eks. de sjældne jordarter og andre ressourcer, der er nødvendige for at fremstille avancerede chips som Blackwell i stor skala, og det affald, der genereres, når de er udtjente.
Det betyder ikke, at de samfundsmæssige fordele ved de AI-kapaciteter, som Blackwell åbner op for, ikke kan opveje de miljømæssige omkostninger.
Men det betyder, at miljøpåvirkningen skal styres omhyggeligt og afbødes som en del af enhver ansvarlig Blackwell-implementeringsplan. Der er stadig et stort spørgsmålstegn ved, om det er muligt eller realistisk.
Blackwells potentielle indflydelse
Lad os se på, hvordan verden kunne se ud i en tid med udbredt brug af Blackwell.
Nogle "back-of-the-envelope"-overslag giver en fornemmelse af muligheder og risici:
- Sprogmodeller, der er 10 gange så store som GPT-3, kan trænes inden for samme tidsramme og med samme mængde computerressourcer som GPT-3 oprindeligt gjorde. Dette vil muliggøre et stort spring i AI-kapaciteten for naturligt sprog.
- Som beskrevet ved keynotenDigitale assistenter med evner, der nærmer sig menneskets, kan potentielt blive omkostningseffektive at udvikle og udbrede. En AI, der kunne håndtere 80% af et typisk vidensjobs opgaver til 1/10 af prisen for en menneskelig medarbejder, kunne fortrænge op til 45 millioner jobs alene i USA.
- Beregningskapaciteten til at træne et AI-system med en generel intelligens, der er lig med eller større end den menneskelige hjerne, kan komme inden for rækkevidde. Estimater for hjernens beregningskapacitet spænder fra 10^13 til 10^16 neurale forbindelser. En Blackwell-drevet supercomputer med 1 million GPU'er ville have en anslået beregningskapacitet på 10^18 flops - potentielt nok til at simulere aspekter af den menneskelige hjerne i realtid.
Det er selvfølgelig meget spekulative scenarier og skal tages med et stort gran salt. Teknisk gennemførlighed betyder ikke nødvendigvis implementering i den virkelige verden.
De fremhæver dog det enorme og forstyrrende potentiale i den AI-acceleration, som NVIDIA muliggør med Blackwell.
Huang beskrev Blackwell som "en ny computerplatform til en ny computeræra". Baseret på tallene er det svært at argumentere for den karakteristik.
Blackwell ser ud til at være klar til at indlede den næste store fase af AI-revolutionen - på godt og ondt.
Selv om chippens specifikationer er imponerende, har samfundet brug for mere end hardwareinnovationer for at håndtere teknologiens konsekvenser.
Nøje overvejelser om miljøpåvirkning og -indsats skal være en del af ligningen og cost-benefit-analysen.
Selv om chips som Blackwell bliver mere energieffektive, er det sandsynligvis ikke nok til at opretholde de nuværende fremskridt.
Vil branchen finde en løsning? Sandsynligvis.
Men vi har nogle år til at finde ud af, hvordan risici og fordele ved kunstig intelligens udvikler sig for samfundet, ja, for selve planeten.