Nvidias mjukvara ökar H100:s inferensprestanda

13 september 2023

nvidia-aktien

Nvidia tillkännagav en ny programvara med öppen källkod som enligt företaget kommer att öka inferensprestandan på H100 GPU:erna.

En stor del av den nuvarande efterfrågan på Nvidias GPU:er är att bygga datorkraft för att träna nya modeller. Men när de väl är utbildade måste dessa modeller användas. Inferens i AI hänvisar till förmågan hos en LLM som ChatGPT att dra slutsatser eller göra förutsägelser från data som den har utbildats på och generera utdata.

När du försöker använda ChatGPT och ett meddelande dyker upp om att servrarna är ansträngda beror det på att datorhårdvaran kämpar för att hålla jämna steg med efterfrågan på inferens.

Nvidia säger att deras nya mjukvara, TensorRT-LLM, kan få deras befintliga hårdvara att köra mycket snabbare och dessutom mer energieffektivt.

Programvaran innehåller optimerade versioner av de mest populära modellerna, inklusive Meta Llama 2, OpenAI GPT-2 och GPT-3, Falcon, Mosaic MPT och BLOOM.

Den använder några smarta tekniker som mer effektiv batchning av inferensuppgifter och kvantiseringstekniker för att uppnå prestandaförbättringen.

LLM:er använder i allmänhet 16-bitars flyttalsvärden för att representera vikter och aktiveringar. Kvantisering tar dessa värden och reducerar dem till 8-bitars flyttalsvärden under inferens. De flesta modeller lyckas behålla sin noggrannhet med denna reducerade precision.

Företag som har datainfrastruktur baserad på Nvidias H100 GPU:er kan förvänta sig en enorm förbättring av inferensprestandan utan att behöva spendera ett öre genom att använda TensorRT-LLM.

Nvidia använde ett exempel där man körde en liten öppen källkodsmodell, GPT-J 6, för att sammanfatta artiklar i CNN/Daily Mail-datasetet. Deras äldre A100-chip används som baslinjehastighet och jämförs sedan med H100 utan och sedan med TensorRT-LLM.

Nvidia ökar prestanda för inferens med TensorRT-LLM

Källa: Nvidia

Och här är en jämförelse när du kör Meta's Llama 2

Nvidias inferensökning med Llama 2

Källa: Nvidia

Nvidia säger att testerna visar att beroende på modell använder en H100 som kör TensorRT-LLM mellan 3,2 och 5,6 gånger mindre energi än en A100 under inferens.

Om du kör AI-modeller på H100-hårdvara innebär det inte bara att din inferensprestanda nästan kommer att fördubblas, utan även att din energiräkning kommer att bli mycket lägre när du har installerat den här programvaran.

TensorRT-LLM kommer också att göras tillgängligt för Nvidias Grace Hopper Superchips men företaget har inte släppt några prestandasiffror för GH200 med den nya programvaran.

Den nya programvaran var ännu inte klar när Nvidia lät sin superchip GH200 genomgå industristandarden MLPerf AI:s prestandatester. Resultaten visade att GH200 presterade upp till 17% bättre än en H100 SXM med ett enda chip.

Om Nvidia uppnår ens en blygsam ökning av inferensprestandan med TensorRT-LLM med GH200, kommer det att sätta företaget långt framför sina närmaste rivaler. Att vara säljare för Nvidia måste vara det enklaste jobbet i världen just nu.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar