| NVIDIA L4 Spezifikationen | |
|---|---|
| FP 32 | 30,3 TeraFLOPS |
| TF32 Tensor Core | 60 TeraFLOPS |
| FP16 Tensor Core | 121 TeraFLOPS |
| BFLOAT16 Tensor Core | 121 TeraFLOPS |
| FP8 Tensor Core | 242,5 TeraFLOPS |
| INT8 Tensor Core | 242,5 TOPS |
| GPU-Speicher | 24 GB GDDR6 |
| GPU-Speicherbandbreite | 300 GB/s |
| Maximale thermische Designleistung (TDP) | 72W |
| Formfaktor | 1-Slot Low-Profile PCIe |
| Interconnect | PCIe Gen4 x16 |
| Spezifikationstabelle | L4 |
Natürlich ist bei einem Preis der L4 von rund 2500 US-Dollar, der A2 für etwa die Hälfte des Preises und der ältere (aber immer noch recht leistungsfähige) T4 für unter 1000 US-Dollar gebraucht, die offensichtliche Frage, was der Unterschied zwischen diesen drei Inferenz-GPUs ist.
| NVIDIA L4, A2 und T4 Spezifikationen | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| FP 32 | 30,3 TeraFLOPS | 4,5 TeraFLOPS | 8,1 TeraFLOPS |
| TF32 Tensor Core | 60 TeraFLOPS | 9 TeraFLOPS | N/A |
| FP16 Tensor Core | 121 TeraFLOPS | 18 TeraFLOPS | N/A |
| BFLOAT16 Tensor Core | 121 TeraFLOPS | 18 TeraFLOPS | N/A |
| FP8 Tensor Core | 242,5 TeraFLOPS | N/A | N/A |
| INT8 Tensor Core | 242,5 TOPS | 36 TOPS | 130 TOPS |
| GPU-Speicher | 24 GB GDDR6 | 16 GB GDDR6 | 16 GB GDDR6 |
| GPU-Speicherbandbreite | 300 GB/s | 200 GB/s | 320+ GB/s |
| Maximale thermische Designleistung (TDP) | 72W | 40-60W | 70W |
| Formfaktor | 1-Slot Low-Profile PCIe | ||
| Interconnect | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
| Spezifikationstabelle | L4 | A2 | T4 |
Eine Sache, die man bei diesen drei Karten verstehen muss, ist, dass sie keine direkten Generationen-Eins-zu-Eins-Ersatzteile sind, was erklärt, warum die T4 auch viele Jahre später noch eine beliebte Wahl für einige Anwendungsfälle ist. Die A2 kam als Ersatz für die T4 als stromsparende und kompatiblere (x8 vs. x16 mechanisch) Option heraus. Technisch gesehen ist die L4 dann ein Ersatz für die T4, wobei die A2 eine Zwischenstellung einnimmt, die irgendwann in der Zukunft möglicherweise aktualisiert wird oder auch nicht.
MLPerf Inference 3.1 Leistung
MLPerf ist ein Konsortium von KI-Führern aus Wissenschaft, Forschung und Industrie, das gegründet wurde, um faire und relevante KI-Hardware- und Software-Benchmarks bereitzustellen. Diese Benchmarks sind darauf ausgelegt, die Leistung von Machine-Learning-Hardware, -Software und -Diensten bei verschiedenen Aufgaben und Szenarien zu messen.
Unsere Tests konzentrieren sich auf zwei spezifische MLPerf-Benchmarks: Resnet50 und BERT.
- Resnet50: Dies ist ein Convolutional Neural Network, das hauptsächlich für die Bildklassifizierung verwendet wird. Es ist ein guter Indikator dafür, wie gut ein System Deep-Learning-Aufgaben im Zusammenhang mit der Bildverarbeitung bewältigen kann.
- BERT (Bidirectional Encoder Representations from Transformers): Dieser Benchmark konzentriert sich auf Aufgaben der natürlichen Sprachverarbeitung und gibt Aufschluss darüber, wie gut ein System beim Verstehen und Verarbeiten menschlicher Sprache abschneidet.
Beide Tests sind entscheidend für die Bewertung der Fähigkeiten von KI-Hardware in realen Szenarien, die Bild- und Sprachverarbeitung beinhalten.
Die Bewertung der NVIDIA L4 mit diesen Benchmarks ist entscheidend, um die Fähigkeiten der L4 GPU bei spezifischen KI-Aufgaben zu verstehen. Sie bietet auch Einblicke, wie verschiedene Konfigurationen (Einzel-, Doppel- und Vierfach-Setups) die Leistung beeinflussen. Diese Informationen sind für Fachleute und Organisationen, die ihre KI-Infrastruktur optimieren möchten, von entscheidender Bedeutung.
Die Modelle werden in zwei Hauptmodi ausgeführt: Server und Offline.
- Offline-Modus: Dieser Modus misst die Leistung eines Systems, wenn alle Daten gleichzeitig zur Verarbeitung verfügbar sind. Es ist vergleichbar mit der Stapelverarbeitung, bei der das System einen großen Datensatz in einem einzigen Stapel verarbeitet. Der Offline-Modus ist entscheidend für Szenarien, in denen Latenz keine primäre Rolle spielt, aber Durchsatz und Effizienz wichtig sind.
- Server-Modus: Im Gegensatz dazu bewertet der Server-Modus die Leistung des Systems in einem Szenario, das eine reale Serverumgebung nachahmt, in der Anfragen einzeln eingehen. Dieser Modus ist latenzempfindlich und misst, wie schnell das System auf jede Anfrage reagieren kann. Er ist unerlässlich für Echtzeitanwendungen wie Webserver oder interaktive Anwendungen, bei denen eine sofortige Reaktion erforderlich ist.
1 x NVIDIA L4 – Dell PowerEdge XR7620
Als Teil unseres kürzlichen Tests des Dell PowerEdge XR7620, ausgestattet mit einer einzelnen NVIDIA L4, haben wir ihn am Edge eingesetzt, um mehrere Aufgaben auszuführen, darunter MLPerf.
Unsere Testsystemkonfiguration umfasste die folgenden Komponenten:
- 2 x Xeon Gold 6426Y – 16 Kerne 2,5 GHz
- 1 x NVIDIA L4
- 8 x 16 GB DDR5
- 480 GB BOSS RAID1
- Ubuntu Server 22.04
- NVIDIA Treiber 535
| Dell PowerEdge XR7620 1x NVIDIA L4 | Ergebnis |
|---|---|
| Resnet50 – Server | 12.204,40 |
| Resnet50 – Offline | 13.010,20 |
| BERT K99 – Server | 898,945 |
| BERT K99 – Offline | 973,435 |
Die Leistung in Server- und Offline-Szenarien für Resnet50 und BERT K99 ist nahezu identisch, was darauf hindeutet, dass die L4 über verschiedene Servermodelle hinweg eine konsistente Leistung beibehält.
1, 2 & 4 NVIDIA L4 – Dell PowerEdge T560
Unsere Testkonfiguration umfasste die folgenden Komponenten:
- 2 x Intel Xeon Gold 6448Y (jeweils 32 Kerne/64 Threads, 225 Watt TDP, 2,1-4,1 GHz)
- 8 x 1,6 TB Solidigm P5520 SSDs mit PERC 12 RAID-Karte
- 1-4x NVIDIA L4 GPUs
- 8 x 64 GB RDIMMs
- Ubuntu Server 22.04
- NVIDIA Treiber 535
| Dell PowerEdge T560 1x NVIDIA L4 | Ergebnis |
|---|---|
| Resnet50 – Server | 12.204,40 |
| Resnet50 – Offline | 12.872,10 |
| Bert K99 – Server | 898,945 |
| Bert K99 – Offline | 945,146 |
In unseren Tests mit zwei L4s im Dell T560 beobachteten wir diese nahezu lineare Skalierung der Leistung für die Benchmarks Resnet50 und BERT K99. Diese Skalierung ist ein Beweis für die Effizienz der L4 GPUs und ihre Fähigkeit, zusammenzuarbeiten, ohne dass es zu erheblichen Verlusten durch Overhead oder Ineffizienz kommt.
| Dell PowerEdge T560 2x NVIDIA L4 | Ergebnis |
|---|---|
| Resnet50 – Server | 24.407,50 |
| Resnet50 – Offline | 25.463,20 |
| BERT K99 – Server | 1.801,28 |
| BERT K99 – Offline | 1.904,10 |
Die konsistente lineare Skalierung, die wir mit zwei NVIDIA L4 GPUs beobachtet haben, erstreckt sich beeindruckend auf Konfigurationen mit vier L4-Einheiten. Diese Skalierung ist besonders bemerkenswert, da die Aufrechterhaltung linearer Leistungssteigerungen mit jeder hinzugefügten GPU aufgrund der Komplexität der parallelen Verarbeitung und der Ressourcenverwaltung immer schwieriger wird.
| Dell PowerEdge T560 4x NVIDIA L4 | Ergebnis |
|---|---|
| Resnet50 – Server | 48.818,30 |
| Resnet50 – Offline | 51.381,70 |
| BERT K99 – Server | 3.604,96 |
| BERT K99 – Offline | 3.821,46 |
Diese Ergebnisse dienen nur zur Veranschaulichung und sind keine wettbewerbsfähigen oder offiziellen MLPerf-Ergebnisse. Eine vollständige Liste der offiziellen Ergebnisse finden Sie auf der MLPerf-Ergebnisseite.
Zusätzlich zur Validierung der linearen Skalierbarkeit der NVIDIA L4 GPUs beleuchten unsere Labortests die praktischen Auswirkungen des Einsatzes dieser Einheiten in verschiedenen Betriebsszenarien. Beispielsweise zeigt die Konsistenz der Leistung zwischen Server- und Offline-Modi über alle Konfigurationen mit den L4 GPUs hinweg ihre Zuverlässigkeit und Vielseitigkeit.
Dieser Aspekt ist besonders relevant für Unternehmen und Forschungseinrichtungen, in denen die betrieblichen Kontexte erheblich variieren. Darüber hinaus liefern unsere Beobachtungen zu den minimalen Auswirkungen von Interconnect-Engpässen und der Effizienz der GPU-Synchronisation in Multi-GPU-Setups wertvolle Einblicke für diejenigen, die ihre KI-Infrastruktur skalieren möchten. Diese Einblicke gehen über reine Benchmark-Zahlen hinaus und bieten ein tieferes Verständnis dafür, wie solche Hardware optimal in realen Szenarien eingesetzt werden kann, und leiten bessere architektonische Entscheidungen und Investitionsstrategien in KI- und HPC-Infrastrukturen.
NVIDIA L4 – Anwendungsleistung
Wir verglichen die Leistung der neuen NVIDIA L4 mit der NVIDIA A2 und NVIDIA T4, die ihr vorausgingen. Um diese Leistungssteigerung gegenüber den älteren Modellen zu demonstrieren, haben wir alle drei Modelle in einem Server in unserem Labor mit Windows Server 2022 und den neuesten NVIDIA-Treibern eingesetzt und unsere gesamte GPU-Testsuite genutzt.
Diese Karten wurden auf einem Dell Poweredge R760 mit folgender Konfiguration getestet:
- 2 x Intel Xeon Gold 6430 (32 Kerne, 2,1 GHz)
- Windows Server 2022
- NVIDIA Treiber 538.15
- ECC auf allen Karten deaktiviert für 1x Sampling
Zu Beginn der Leistungstests zwischen dieser Gruppe von drei Enterprise-GPUs ist es wichtig, die einzigartigen Leistungsunterschiede zwischen den früheren A2- und T4-Modellen zu beachten. Als die A2 auf den Markt kam, bot sie einige bemerkenswerte Verbesserungen wie einen geringeren Stromverbrauch und den Betrieb auf einem kleineren PCIe Gen4 x8-Steckplatz anstelle des größeren PCIe Gen3 x16-Steckplatzes, den die ältere T4 benötigte. Sie ermöglichte es ihr, in mehr Systeme zu passen, insbesondere mit dem kleineren benötigten Formfaktor.
Blender OptiX 4.0
Blender OptiX ist eine Open-Source-3D-Modellierungsanwendung. Dieser Test kann sowohl für CPU als auch für GPU ausgeführt werden, aber wir haben nur die GPU wie bei den meisten anderen Tests hier durchgeführt. Dieser Benchmark wurde mit dem Blender Benchmark CLI-Dienstprogramm ausgeführt. Die Punktzahl sind Samples pro Minute, wobei höhere Werte besser sind.
| Blender 4.0 (Höher ist besser) |
NVIDIA L4 | NVIDIA A2 | Nvidia T4 |
|---|---|---|---|
| GPU Blender CLI – Monster | 2.207,765 | 458,692 | 850,076 |
| GPU Blender CLI – Junkshop | 1.127,829 | 292,553 | 517,243 |
| GPU Blender CLI – Classroom | 1.111,753 | 262,387 | 478,786 |
Blackmagic RAW Speed Test
Wir testen CPUs und GPUs mit Blackmagic's RAW Speed Test, der die Videowiedergabegeschwindigkeiten testet. Dies ist eher ein Hybridtest, der CPU- und GPU-Leistung für die RAW-Dekodierung in der Praxis beinhaltet. Diese werden als separate Ergebnisse angezeigt, aber wir konzentrieren uns hier nur auf die GPUs, daher werden die CPU-Ergebnisse weggelassen.
| Blackmagic RAW Speed Test (Höher ist besser) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Cinebench 2024 GPU
Maxon's Cinebench 2024 ist ein CPU- und GPU-Rendering-Benchmark, der alle CPU-Kerne und Threads nutzt. Da wir uns wieder auf GPU-Ergebnisse konzentrieren, haben wir die CPU-Teile des Tests nicht ausgeführt. Höhere Punktzahlen sind besser.
| Cinebench 2024 (Höher ist besser) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPU | 15.263 | 4.006 | 5.644 |
GPU PI
GPUPI 3.3.3 ist eine Version des leichtgewichtigen Benchmark-Tools, das zur Berechnung von π (Pi) auf Milliarden von Dezimalstellen entwickelt wurde und dabei Hardwarebeschleunigung über GPUs und CPUs nutzt. Es nutzt die Rechenleistung von OpenCL und CUDA, die sowohl zentrale als auch grafische Prozessoreinheiten umfasst. Wir haben CUDA auf allen 3 GPUs ausgeführt, und die Zahlen hier sind die Berechnungszeit ohne Reduktionszeit. Niedriger ist besser.
| GPU PI Berechnungszeit in Sekunden (Niedriger ist besser) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPUPI v3.3 – 1B | 3,732s | 19,799s | 7,504s |
| GPUPI v3.3 – 32B | 244,380s | 1.210,801s | 486,231s |
Während die vorherigen Ergebnisse nur eine einzelne Iteration jeder Karte betrachteten, hatten wir auch die Gelegenheit, eine 5-fache NVIDIA L4-Bereitstellung im Dell PowerEdge T560 zu betrachten.
| GPU PI Berechnungszeit in Sekunden (Niedriger ist besser) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) mit 5x NVIDIA L4 |
|---|---|
| GPUPI v3.3 – 1B | 0 Sek. 850 ms |
| GPUPI v3.3 – 32B | 50 Sek. 361 ms |
Octanebench
OctaneBench ist ein Benchmark-Tool für OctaneRender, einen weiteren 3D-Renderer mit RTX-Unterstützung, ähnlich wie V-Ray.
| Octane (Höher ist besser) | ||||
| Szene | Kernel | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
| Innenraum | Info-Kanäle | 15,59 | 4,49 | 6,39 |
| Direkte Beleuchtung | 50,85 | 14,32 | 21,76 | |
| Pfadverfolgung | 64,02 | 18,46 | 25,76 | |
| Idee | Info-Kanäle | 9,30 | 2,77 | 3,93 |
| Direkte Beleuchtung | 39,34 | 11,53 | 16,79 | |
| Pfadverfolgung | 48,24 | 14,21 | 20,32 | |
| ATV | Info-Kanäle | 24,38 | 6,83 | 9,50 |
| Direkte Beleuchtung | 54,86 | 16,05 | 21,98 | |
| Pfadverfolgung | 68,98 | 20,06 | 27,50 | |
| Box | Info-Kanäle | 12,89 | 3,88 | 5,42 |
| Direkte Beleuchtung | 48,80 | 14,59 | 21,36 | |
| Pfadverfolgung | 54,56 | 16,51 | 23,85 | |
| Gesamtpunktzahl | 491,83 | 143,71 | 204,56 | |
Geekbench 6 GPU
Geekbench 6 ist ein plattformübergreifender Benchmark, der die Gesamtleistung des Systems misst. Es gibt Testoptionen für CPU- und GPU-Benchmarks. Höhere Punktzahlen sind besser. Auch hier haben wir uns nur die GPU-Ergebnisse angesehen.
Vergleiche mit jedem gewünschten System finden Sie im Geekbench Browser.
| Geekbench 6.1.0 (Höher ist besser) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Geekbench GPU OpenCL | 156.224 | 35.835 | 83.046 |
Luxmark
LuxMark ist ein plattformübergreifendes OpenCL-Benchmark-Tool von den Entwicklern der Open-Source-3D-Rendering-Engine LuxRender. Dieses Tool bewertet die GPU-Leistung in den Bereichen 3D-Modellierung, Beleuchtung und Videobearbeitung. Für diesen Test haben wir die neueste Version, v4alpha0, verwendet. In LuxMark sind höhere Werte besser.
| Luxmark v4.0alpha0 OpenCL GPUs (Höher ist besser) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Hall Bench | 14.328 | 3.759 | 5.893 |
| Food Bench | 5.330 | 1.258 | 2.033 |
GROMACS CUDA
Wir haben auch GROMACS, eine Software für Molekulardynamik, speziell für CUDA kompiliert. Diese kundenspezifische Kompilierung diente dazu, die parallelen Verarbeitungsfähigkeiten der 5 NVIDIA L4 GPUs zu nutzen, die für die Beschleunigung von Computersimulationen unerlässlich sind.
Der Prozess umfasste die Nutzung von nvcc, NVIDIAs CUDA-Compiler, zusammen mit vielen Iterationen der entsprechenden Optimierungsflags, um sicherzustellen, dass die Binärdateien korrekt auf die Architektur des Servers abgestimmt waren. Die Einbeziehung der CUDA-Unterstützung in die GROMACS-Kompilierung ermöglicht es der Software, direkt mit der GPU-Hardware zu interagieren, was die Berechnungszeiten für komplexe Simulationen drastisch verbessern kann.
Der Test: Benutzerdefinierte Proteininteraktion in Gromacs
Unter Verwendung einer von unserer Community im Discord bereitgestellten Eingabedatei, die Parameter und Strukturen für eine spezifische Proteininteraktionsstudie enthielt, initiierten wir eine Molekulardynamik-Simulation. Die Ergebnisse waren bemerkenswert – das System erreichte eine Simulationsrate von 170,268 Nanosekunden pro Tag.
| GPU | System | ns/Tag | Kernzeit (s) |
|---|---|---|---|
| NVIDIA A4000 | Whitebox AMD Ryzen 5950x | 84,415 | 163.763 |
| RTX NVIDIA 4070 | Whitebox AMD Ryzen 7950x3d | 131,85 | 209.692,3 |
| 5x NVIDIA L4 | Dell T560 mit 2x Intel Xeon Gold 6448Y | 170,268 | 608.912,7 |
Mehr als KI
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
E-Mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Geschäftsschwerpunkt:
ICT-Produktvertrieb/Systemintegration & Dienstleistungen/Infrastrukturlösungen
Mit über 20 Jahren Erfahrung im IT-Vertrieb arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.
„Technologie nutzen, um eine intelligente Welt aufzubauen“ Ihr vertrauenswürdiger ICT-Produkt-Dienstleister!



