Für den NVIDIA DGX Spark zeichnen sich zwei charakteristische Eigenschaften ab: 128 GB einheitlicher Speicher in einer 4000 Dollar teuren Desktop-Einheit und ein eingebautes 200 GB-Netzwerk für Datenzentren.Das Hochgeschwindigkeitsgewebe unterscheidet es von normalen Arbeitsplätzen, die Multi-Node-Clustering erstmals ausschließlich für Rack-montierte Server ermöglicht.und HP Spark-Varianten in 200GbE-Clustern mit zwei Knoten für verschiedene Modelle und ArbeitslastenEs analysiert auch Pipeline Parallelism (PP), eine alternative Spaltung Methode, die NVIDIA's Standard-Tensor-Parallelismus (TP) übertrifft.
200 Gb Netzwerk-Fabrik
Jeder Spark ist mit zwei QSFP56-Käfigen ausgestattet, die mit einem integrierten ConnectX-7 SmartNIC gekoppelt sind.mit einem Port, der für die volle Bandbreite ausreichtDer zweite Port bietet Topologie-Flexibilität.Drei gängige Konfigurationen sind verfügbar: direkte Spark-to-Spark 200Gb-Verbindungen, switchfreie Ringtopologie über doppelte 100Gb-Ports,und Hybrid-Clustering mit NVMe-oF-HochgeschwindigkeitsspeicherzugriffNVIDIA verkauft Single-Unit-Desktops, validierte Zwei-Node-Cluster und neu veröffentlichte Vier-Node-Setups.Die Dual-Spark-Konfiguration ist die praktischste für die Produktions-Stil-Inferenz und der Schwerpunkt dieses Tests.
Begründung für Spark Clustering
Der Hauptvorteil besteht in der Erweiterung der Modellkapazität: zwei verknüpfte Sparks können 120B-Parametermodelle ausführen, die die Grenzen für den einzelnen Speicher überschreiten.die Plattform dient als erschwingliches BildungswerkzeugNVIDIA entwickelt Spark für Anfänger, um KI-Workflows zu erlernen, mit offiziellen Leitfäden für Modellbereitstellung, Feinabstimmung und PyTorch/JAX-Entwicklung.Dual-Node-Cluster lehren darüber hinaus Multi-Node-Parallelismus und Netzwerk-Flaschenhalsanalyse ohne teure Rechenzentrum-HardwareSpark ist nicht für die Produktionsinferenz optimiert. Beschränkt durch Speicherbandbreite und Inter-Node-Latenz ist sein 200GbE-Link langsamer als interne PCIe-Verbindungen.Größere Cluster erleiden eine schwere Leistungsminderung, mit geringem Token-Durchsatz, was sie eher auf die pädagogische als auf die kommerzielle Nutzung beschränkt.
Leistungsprüfung: PP vs. TP
Auswahl der Parallelismusstrategie
NVIDIA setzt standardmäßig auf TP, das jede Transformationsschicht auf zwei GPUs mit häufigem All-Reduced-Daten-Austausch aufteilt.Übertragung von Aktivierungen nur einmal zwischen Knoten. Bei 200GbE-Verbindungen minimiert PP die Knotenübergangskommunikation. Bei großen Modellen mit hohen Chargegrößen übertrifft PP TP deutlich; TP übertrifft nur in Single-Request-Chat-Szenarien mit geringer Latenz.
Tests auf GPT-OSS-120B bestätigen diese Lücke. Bei Chargengröße 128 erreicht PP bei ausgewogenen Arbeitslasten 554,69 tok/s (2,20x schneller als bei TP), bei vorfüllungsintensiven Aufgaben 310,63 tok/s gegenüber 164,99 tok/s.TP-Leads nur bei Chargengröße 1Für kleine Modelle wie Llama-3.1-8B dominiert TP die meisten Chargengrößen aufgrund der leichten Schichtberechnung, wobei PP TP nur bei hoher Konkurrenz überholt.
Multimodell-Benchmark-Ergebnisse (PP=2)
GPT-OSS-Serie
Für GPT-OSS-120B übertraf HP den Spitzendurchsatz bei ausgewogenen (504,88 Tok/s) und vorfüllungsstarken (441,63 Tok/s) Arbeitslasten; GIGABYTE führte dekodierungsstarke Tests durch (494,37 Tok/s).Dell dominiert ausgewogen (976.77 tok/s) und vorfüll-schwere (852.39 tok/s) Szenarien, während GIGABYTE führte Decodierungsaufgaben (945.55 tok/s).
Llama 3.1 8B Varianten
Bei BF16-Präzision führte Dell ausgewogene (689.53 Tok/s) und dekodierungs-schwere (581.43 Tok/s) Arbeitslasten an; GIGABYTE gewann vorfüllschwere Tests (539.27 Tok/s).Gigabyte-LED ausgeglichen (1458Für das FP8 behielt Dell in ausgewogenen (1105.42 tok/s) und dekodierungsstarken (862.33 tok/s) Szenarien schmale Spuren.
Mistral und Qwen Modelle
Mistral Small 3.1 24B verzeichnete minimale Lücken: GIGABYTE erreichte einen Höchststand von 255,09 Tok/s bei ausgewogenen Arbeitslasten.Dell zeichnete sich bei Entschlüsselungsszenarien aus.Bei der FB8-Quantifizierung belegte GIGABYTE den obersten Vorfülldurchsatz (3088,62 Tok/s), während Dell die Decodierungsaufgaben (705,77 Tok/s) leitete.
Zusammenfassung der Spitzenleistung von Doppelsparksystemen
|
Modell
|
Das Szenario (BS ¢ 64)
|
Dell Spitzenleistung
|
Gigabyte Spitzenleistung
|
HP Spitzenleistung
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
Gleiche ISL/OSL
|
4630,97 Tok/s
|
497.26 Tok/s
|
5040,88 Tok/s
|
|
GPT-OSS-120B
|
Vorfüllung Schwer
|
419.56 Tok/s
|
417.34 Tok/s
|
4410,63 Tok/s
|
|
GPT-OSS-120B
|
Decode schwer
|
451.18 Tok/s
|
494.37 Tok/s
|
4740,85 Tok/s
|
|
GPT-OSS-20B
|
Gleiche ISL/OSL
|
9760,77 Tok/s
|
952.31 Tok/s
|
915.72 Tok/s
|
|
GPT-OSS-20B
|
Vorfüllung Schwer
|
852.39 Tok/s
|
802.37 Tok/s
|
7570,05 Tok/s
|
|
GPT-OSS-20B
|
Decode schwer
|
938.65 Tok/s
|
945.55 Tok/s
|
865.78 Tok/s
|
|
Llama-3.1-8B-Instruktion
|
Gleiche ISL/OSL
|
689.53 Tok/s
|
687.48 Tok/s
|
618.87 Tok/s
|
|
Llama-3.1-8B-Instruktion
|
Vorfüllung Schwer
|
515.45 Tok/s
|
539.27 Tok/s
|
463.39 Tok/s
|
|
Llama-3.1-8B-Instruktion
|
Decode schwer
|
581.43 Tok/s
|
576.91 Tok/s
|
5310,07 Tok/s
|
|
Llama-3.1-8B-FP4
|
Gleiche ISL/OSL
|
1427.39 Tok/s
|
1458.86 Tok/s
|
1413.51 Tok/s
|
|
Llama-3.1-8B-FP4
|
Vorfüllung Schwer
|
884.22 Tok/s
|
954.23 Tok/s
|
843.57 Tok/s
|
|
Llama-3.1-8B-FP4
|
Decode schwer
|
10080,98 Tok/s
|
1007.23 Tok/s
|
9430,73 Tok/s
|
|
Llama-3.1-8B-FP8
|
Gleiche ISL/OSL
|
1105.42 Tok/s
|
10890,85 Tok/s
|
1076.68 Tok/s
|
|
Llama-3.1-8B-FP8
|
Vorfüllung Schwer
|
759.50 Tok/s
|
827.40 Tok/s
|
725.51 Tok/s
|
|
Llama-3.1-8B-FP8
|
Decode schwer
|
862.33 Tok/s
|
855.81 Tok/s
|
800.78 Tok/s
|
|
Mistral-Small-3.1-24B
|
Gleiche ISL/OSL
|
2490,77 Tok/s
|
255.09 Tok/s
|
239.09 Tok/s
|
|
Mistral-Small-3.1-24B
|
Vorfüllung Schwer
|
216.01 Tok/s
|
214.38 Tok/s
|
197.92 Tok/s
|
|
Mistral-Small-3.1-24B
|
Decode schwer
|
238.44 Tok/s
|
2370,97 Tok/s
|
221.41 Tok/s
|
Schlussfolgerung
Bei der Beschaffung sollten Vorrang an Chassis-Design, thermischen Leistungen, Garantie,und Nachverkaufsunterstützung gegenüber unbedeutenden BenchmarkdifferenzenDie Parallelismusstrategie hat eine weitaus größere Wirkung als OEM-Variationen: PP übertrifft TP bei der Batch-Inferenz, während TP für die Single-Stream-Interaktion mit geringer Latenzzeit geeignet ist.Die TP-Empfehlung von NVIDIA entspricht der Positioning von Spark als interaktives Lerngerät und nicht als Produktionsinfrastruktur.. Ein Dual-Node Spark Cluster dient als erschwingliche Lehrplattform für verteilte KI. Zukünftige Tests werden größere Cluster und End-to-End-Schulungen für kleine Modelle abdecken.Ausstehende 800Gb-Switch-Bereitstellung im Labor.
Beibei Qianxing Jietong Technology Co., Ltd.
Sandy Yang, Leiterin der globalen Strategie
WhatsApp / WeChat: +86 13426366826
E-Mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com Die Daten werden auf der Website der chinesischen Regierung gespeichert.
Geschäftsfokus:
Vertrieb von IKT-Produkten/Systemintegration und Dienstleistungen/Infrastrukturlösungen
Mit mehr als 20 Jahren Erfahrung im IT-Vertrieb arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.
¢Technologie nutzen, um eine intelligente Welt aufzubauen¡Ihr vertrauenswürdiger Dienstleister für IKT-Produkte!
Sandy Yang, Leiterin der globalen Strategie
WhatsApp / WeChat: +86 13426366826
E-Mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com Die Daten werden auf der Website der chinesischen Regierung gespeichert.
Geschäftsfokus:
Vertrieb von IKT-Produkten/Systemintegration und Dienstleistungen/Infrastrukturlösungen
Mit mehr als 20 Jahren Erfahrung im IT-Vertrieb arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.
¢Technologie nutzen, um eine intelligente Welt aufzubauen¡Ihr vertrauenswürdiger Dienstleister für IKT-Produkte!



