Nvidia-Software steigert die H100-Inferenzleistung

13. September 2023

Nvidia-Aktien

Nvidia hat eine neue Open-Source-Software angekündigt, die die Inferenzleistung seiner H100-Grafikprozessoren verbessern soll.

Ein Großteil der aktuellen Nachfrage nach Nvidias Grafikprozessoren besteht darin, Rechenleistung für das Training neuer Modelle aufzubauen. Aber sobald diese Modelle trainiert sind, müssen sie auch genutzt werden. Inferenz in der KI bezieht sich auf die Fähigkeit eines LLM wie ChatGPT, Schlussfolgerungen zu ziehen oder Vorhersagen aus den Daten zu treffen, auf denen es trainiert wurde, und eine Ausgabe zu erzeugen.

Wenn Sie versuchen, ChatGPT zu benutzen und eine Meldung erscheint, dass die Server überlastet sind, liegt das daran, dass die Computerhardware mit der Nachfrage nach Schlussfolgerungen nicht Schritt halten kann.

Nvidia sagt, dass seine neue Software, TensorRT-LLM, seine bestehende Hardware viel schneller und energieeffizienter machen kann.

Die Software enthält optimierte Versionen der beliebtesten Modelle, darunter Meta Llama 2, OpenAI GPT-2 und GPT-3, Falcon, Mosaic MPT und BLOOM.

Es verwendet einige clevere Techniken wie eine effizientere Stapelung von Inferenzaufgaben und Quantisierungstechniken, um die Leistung zu steigern.

LLMs verwenden in der Regel 16-Bit-Gleitkommawerte zur Darstellung von Gewichten und Aktivierungen. Bei der Quantisierung werden diese Werte während der Inferenz auf 8-Bit-Gleitkommawerte reduziert. Den meisten Modellen gelingt es, ihre Genauigkeit mit dieser reduzierten Präzision beizubehalten.

Unternehmen, die über eine auf Nvidias H100-GPUs basierende Recheninfrastruktur verfügen, können durch den Einsatz von TensorRT-LLM eine enorme Verbesserung der Inferenzleistung erwarten, ohne einen Cent ausgeben zu müssen.

Nvidia verwendete ein Beispiel für die Ausführung eines kleinen Open-Source-Modells, GPT-J 6, um Artikel im CNN/Daily Mail-Datensatz zusammenzufassen. Sein älterer A100-Chip wird als Basisgeschwindigkeit verwendet und dann mit dem H100 ohne und dann mit TensorRT-LLM verglichen.

Nvidia Inferenz-Leistungssteigerung mit TensorRT-LLM

Quelle: Nvidia

Und hier ist ein Vergleich mit Meta's Llama 2

Nvidia-Inferenzerhöhung mit Llama 2

Quelle: Nvidia

Laut Nvidia haben die Tests gezeigt, dass ein H100 mit TensorRT-LLM je nach Modell zwischen 3,2 und 5,6 Mal weniger Energie verbraucht als ein A100 während der Inferenz.

Wenn Sie KI-Modelle auf H100-Hardware ausführen, bedeutet dies nicht nur, dass sich Ihre Inferenzleistung fast verdoppelt, sondern auch, dass Ihre Energierechnung nach der Installation dieser Software um ein Vielfaches niedriger ausfallen wird.

TensorRT-LLM wird auch für Nvidia's Grace Hopper Superchips aber das Unternehmen hat keine Leistungsdaten für das GH200 mit seiner neuen Software veröffentlicht.

Die neue Software war noch nicht fertig, als Nvidia seinen GH200 Superchip den branchenüblichen MLPerf AI-Leistungstests unterzog. Die Ergebnisse zeigten, dass der GH200 bis zu 17% besser abschnitt als ein Single-Chip H100 SXM.

Wenn Nvidia mit dem GH200 auch nur einen bescheidenen Anstieg der Inferenzleistung mit TensorRT-LLM erreicht, wird das Unternehmen seine nächsten Konkurrenten weit hinter sich lassen. Ein Vertriebsmitarbeiter für Nvidia zu sein, muss im Moment der einfachste Job der Welt sein.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen