Nvidia-programvare øker ytelsen til H100-inferens

13. september 2023

nvidia-aksjer

Nvidia kunngjorde ny programvare med åpen kildekode som ifølge selskapet vil gi bedre ytelse på H100 GPU-ene.

Mye av den nåværende etterspørselen etter Nvidias GPU-er er å bygge datakraft for å trene opp nye modeller. Men når modellene er trent opp, må de brukes. Inferens i AI refererer til evnen en LLM som ChatGPT har til å trekke konklusjoner eller komme med spådommer ut fra data den har blitt trent på, og generere resultater.

Når du prøver å bruke ChatGPT og får opp en melding om at serverne er overbelastet, er det fordi maskinvaren sliter med å holde tritt med etterspørselen etter slutninger.

Nvidia sier at den nye programvaren, TensorRT-LLM, kan få den eksisterende maskinvaren til å kjøre mye raskere og mer energieffektivt.

Programvaren inneholder optimaliserte versjoner av de mest populære modellene, inkludert Meta Llama 2, OpenAI GPT-2 og GPT-3, Falcon, Mosaic MPT og BLOOM.

Den bruker noen smarte teknikker, som mer effektiv gruppering av inferensoppgaver og kvantifiseringsteknikker, for å oppnå økt ytelse.

LLM-er bruker vanligvis 16-biters flyttallsverdier for å representere vekter og aktiveringer. Kvantisering tar disse verdiene og reduserer dem til 8-bits flyttallverdier under inferens. De fleste modeller klarer å beholde nøyaktigheten med denne reduserte presisjonen.

Bedrifter som har en databehandlingsinfrastruktur basert på Nvidias H100-GPU-er, kan forvente en enorm forbedring av inferensytelsen uten å måtte bruke en eneste krone på å bruke TensorRT-LLM.

Nvidia brukte et eksempel på å kjøre en liten åpen kildekodemodell, GPT-J 6, for å oppsummere artikler i CNN/Daily Mail-datasettet. Den eldre A100-brikken brukes som basishastighet og sammenlignes deretter med H100 uten og deretter med TensorRT-LLM.

Nvidia øker ytelsen med TensorRT-LLM

Kilde: Nvidia

Og her er en sammenligning når du kjører Meta's Llama 2

Nvidia øker inferens med Llama 2

Kilde: Nvidia

Nvidia sa at testingen viste at en H100 som kjører TensorRT-LLM, avhengig av modell, bruker mellom 3,2 og 5,6 ganger mindre energi enn en A100 under inferens.

Hvis du kjører AI-modeller på H100-maskinvare, betyr dette at ikke bare vil slutningsytelsen din nesten dobles, men strømregningen din vil også bli mye mindre når du installerer denne programvaren.

TensorRT-LLM vil også bli gjort tilgjengelig for Nvidias Grace Hopper Superchips men selskapet har ikke offentliggjort ytelsestall for GH200 med den nye programvaren.

Den nye programvaren var ennå ikke klar da Nvidia kjørte sin GH200 Superchip gjennom bransjestandarden MLPerf AI-ytelsestester. Resultatene viste at GH200 presterte opptil 17% bedre enn en enkeltbrikke H100 SXM.

Hvis Nvidia oppnår selv en beskjeden økning i inferensytelsen ved hjelp av TensorRT-LLM med GH200, vil det gi selskapet et stort forsprang på de nærmeste konkurrentene. Å være salgsrepresentant for Nvidia må være den enkleste jobben i verden akkurat nå.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser