NVIDIA CEO Jensen Huang beskrev nylig selskapets nyeste AI-akseleratorbrikke, Blackwell, i detalj på selskapets Computex 2024-keynote.
Med Blackwell tar NVIDIA sikte på å sementere sin dominans på det voksende AI-maskinvareområdet og samtidig bevise sin evne til å innovere.
Med en markedsverdi som nærmer seg $3 billioner dollar, har NVIDIAs vei til suveren kontroll over AI-infrastrukturen vært intet mindre enn forbløffende.
Huang ser ingen tegn til at fremgangen vil stoppe opp, ettersom selskapet fortsetter å knuse analytikernes forventninger.
Men hva forteller egentlig spesifikasjonene og tallene oss om Blackwells evner og potensielle gjennomslagskraft?
La oss se nærmere på hvordan det kan påvirke AI-bransjen og samfunnet som helhet.
Rå datakraft
Hovedtallet er at en enkelt Blackwell "superchip" - som består av to GPU-dies som er koblet sammen med en høyhastighetskobling - har hele 208 milliarder transistorer.
Det er nesten en tredobling i forhold til NVIDIAs forrige generasjon Hopper-chip. NVIDIA hevder at dette gir en 30 ganger høyere hastighet på AI-inferensoppgaver sammenlignet med Hopper.
For å sette dette i perspektiv kan vi se på et eksempel på en stor språkmodell (LLM) med 100 milliarder parametere, i samme størrelsesorden som GPT-3.
Å trene opp en slik modell på NVIDIAs forrige generasjon A100 GPU-er ville kreve at rundt 1024 A100-brikker kjørte i en måned.
Med Blackwell hevder NVIDIA at den samme modellen kan trenes opp på litt over en uke ved hjelp av 256 Blackwell-brikker - en firedobling av opplæringstiden.
Energieffektivitet
Til tross for de dramatiske ytelsesgevinstene, oppgir NVIDIA at Blackwell kan redusere kostnadene og energiforbruket med opptil 25 ganger sammenlignet med Hopper for visse AI-arbeidsbelastninger.
Selskapet ga et eksempel på trening av en modell med 1,8 billioner parametere, noe som tidligere ville ha krevd 8000 Hopper GPU-er med en effekt på 15 megawatt.
Med Blackwell sier NVIDIA at dette kan oppnås med 2000 GPU-er som bare bruker 4 megawatt.
Selv om et strømforbruk på 4 megawatt for en enkelt AI-treningskjøring fortsatt er betydelig, er det imponerende at Blackwell kan gi en nesten firedobling av energieffektiviteten for en så krevende oppgave.
La oss ikke undervurdere tallene her. For å sette tallet på 4 megawatt i perspektiv, tilsvarer det det gjennomsnittlige strømforbruket til mer enn 3000 amerikanske husholdninger.
En enkelt Blackwell-drevet AI-superdatamaskin som trener opp en toppmoderne modell, vil altså bruke like mye energi som en hel by i løpet av treningsperioden.
Og det er bare for én treningskjøring - organisasjoner som utvikler store AI-modeller, forbedrer ofte modellene sine gjennom mange iterasjoner, og da må vi ta i betraktning at det finnes hundrevis av organisasjoner som utvikler store modeller.
Miljøkostnader
Selv med forbedret energieffektivitet vil en utstrakt bruk av Blackwell fortsatt kunne øke bransjens samlede energiforbruk betydelig.
La oss for eksempel anta at det i dag finnes 100 000 GPU-er med høy ytelse som brukes til AI-trening og inferens på verdensbasis.
Hvis Blackwell muliggjør en 10-dobling av AI-bruken i løpet av de kommende årene, noe som ikke virker som et ekstraordinært tall å plukke ut av luften, vil det bety at 1 million Blackwell-GPU-er er i bruk.
Med det strømforbruket på 1,875 kilowatt per GPU som Huang oppga, vil 1 million Blackwell GPU-er forbruke 1,875 gigawatt strøm - nesten like mye som to gjennomsnittlige kjernekraftverk.
Det tar mange år å bygge kjernekraftverk, og de koster billioner. De er først og fremst designet for å støtte landsdekkende infrastruktur, ikke bare for å trene AI-modeller.
Tidligere analyser har spådd at AI-arbeidsbelastningen kan komme til å forbruke like mye strøm som et lite land innen 2027, og det er vanskelig å se nøyaktig hvordan disse kravene skal kunne oppfylles på en rimelig måte.
Vannforbruket er også et kolossalt problem, og Microsoft har avslørt en enorm økning i vannforbruk fra 2022 til 2023som korrelerte med opplæring i AI-modeller og etterspørsel etter datasentre.
Deler av USA har allerede opplevd vannmangel på grunn av datasentrenes forbruk.
Hvis vi ikke finner bedre måter å drive AI-maskinvare fra fornybar energi på, vil karbonutslippene og vannforbruket fra Blackwell-drevet AI bli enorme, og NVIDIA vil akselerere "hyperscale"-æraen for AI-modelltrening.
Og i tillegg til energiforbruket er det viktig å ta hensyn til andre miljøkostnader, som for eksempel de sjeldne jordartene og andre ressurser som trengs for å produsere avanserte brikker som Blackwell i stor skala, og avfallet som genereres når de er utrangerte.
Det betyr ikke at de samfunnsmessige fordelene ved AI-mulighetene som Blackwell åpner opp for, ikke kan oppveie disse miljøkostnadene.
Men det betyr at miljøkonsekvensene må håndteres nøye og avbøtes som en del av enhver ansvarlig Blackwell-distribusjonsplan. Det er et vedvarende spørsmålstegn ved om det er mulig eller realistisk.
Blackwells potensielle innvirkning
La oss se på hvordan verden kan se ut i en tid med utbredt bruk av Blackwell.
Noen overslag gir en pekepinn på muligheter og risiko:
- Språkmodeller som er 10 ganger så store som GPT-3, kan trenes opp på samme tid og med samme mengde dataressurser som GPT-3 opprinnelig gjorde. Dette vil muliggjøre et stort sprang i AI-kapasiteten for naturlig språk.
- Som beskrevet på hovedforedragetkan digitale assistenter med evner som nærmer seg menneskelige evner potensielt bli kostnadseffektive å utvikle og distribuere i stor skala. En kunstig intelligens som kan håndtere 80% av oppgavene i en typisk kunnskapsjobb til en tiendedel av kostnaden for en menneskelig arbeidstaker, kan erstatte opptil 45 millioner jobber bare i USA.
- Beregningskapasiteten til å trene opp et AI-system med en generell intelligens som er like stor eller større enn den menneskelige hjernens, kan være innen rekkevidde. Anslagene for hjernens beregningskapasitet varierer fra 10^13 til 10^16 nevrale forbindelser. En Blackwell-drevet superdatamaskin med maksimalt 1 million GPU-er vil ha en estimert beregningskapasitet på 10^18 flops - potensielt tilstrekkelig til å simulere aspekter av menneskehjernen i sanntid.
Dette er selvsagt høyst spekulative scenarier, og de bør tas med en stor klype salt. Teknisk gjennomførbarhet betyr ikke nødvendigvis at de kan tas i bruk i den virkelige verden.
De fremhever imidlertid det enorme og banebrytende potensialet som ligger i AI-akselerasjonen NVIDIA muliggjør med Blackwell.
Huang beskrev Blackwell som "en ny databehandlingsplattform for en ny databehandlingsæra". Basert på tallene er det vanskelig å argumentere mot den karakteristikken.
Blackwell ser ut til å være klar til å innlede den neste store fasen av AI-revolusjonen - på godt og vondt.
Selv om chipens spesifikasjoner er imponerende, vil samfunnet trenge mer enn maskinvareinnovasjoner for å håndtere teknologiens konsekvenser.
Nøye vurdering av miljøpåvirkning og -innsats må være en del av regnestykket og kost-nytte-analysen.
Selv om brikker som Blackwell blir stadig mer energieffektive, er det sannsynligvis ikke nok til å opprettholde den nåværende utviklingen.
Vil bransjen finne en løsning? Sannsynligvis.
Men vi har noen år på oss til å finne ut hvordan risikoene og fordelene med kunstig intelligens vil slå ut for samfunnet, og for selve planeten.