Wir verwenden einen Dell PowerEdge R760 mit Ubuntu 22.04.02 LTS als Testplattform für alle Workloads in diesem Test. Ausgestattet mit einemSerielle Kabel Gen5 JBOFEs bietet umfassende Kompatibilität mit U.2-, E1.S-, E3.S- und M.2-SSDs. Nachfolgend ist unsere Systemkonfiguration aufgeführt:
CDN-Leistung
Um eine realistische CDN-Arbeitslast mit gemischten Inhalten zu simulieren, wurden die SSDs einer mehrphasigen Benchmark-Sequenz unterzogen, die darauf ausgelegt war, die I/O-Muster inhaltsintensiver Edge-Server nachzubilden. Der Testprozess umfasst eine Reihe von Blockgrößen – sowohl große als auch kleine – verteilt auf zufällige und sequentielle Vorgänge mit unterschiedlichen Parallelitätsgraden.
Vor den Hauptleistungstests absolvierte jede SSD eine vollständige Gerätefüllung über einen 100 % sequentiellen Schreibdurchlauf mit 1-MB-Blöcken. Dieser Prozess nutzte synchrone E/A und eine Warteschlangentiefe von vier, was vier gleichzeitige Jobs ermöglichte. Diese Phase stellt sicher, dass das Laufwerk in einen stabilen Zustand übergeht, der der realen Nutzung entspricht. Nach der sequenziellen Befüllung wurde eine sekundäre, dreistündige, randomisierte Schreibsättigungsphase durchgeführt, bei der eine gewichtete Blockgrößenverteilung (Blockgröße/Prozentsatz) mit einem starken Fokus auf 128.000-Transfers (98,51 %) verwendet wurde, ergänzt durch geringfügige Beiträge von Blöcken unter 128.000 bis hinunter zu 8.000. Dieser Schritt emuliert die fragmentierten, ungleichmäßigen Schreibmuster, die häufig in verteilten Cache-Umgebungen auftreten.
Die Haupttestsuite konzentrierte sich auf skalierte zufällige Lese- und Schreibvorgänge, um die Leistung des Laufwerks bei variablen Warteschlangentiefen und Job-Parallelität zu messen. Jeder Test dauerte fünf Minuten (300 Sekunden), gefolgt von einer dreiminütigen Leerlaufzeit, damit interne Wiederherstellungsmechanismen die Leistungsmetriken stabilisieren konnten.
Die Tests wurden mit einer festen Blockgrößenverteilung durchgeführt, wobei 128 KB (98,51 %) bevorzugt wurden, wobei die restlichen 1,49 % der Vorgänge aus kleineren Übertragungsgrößen im Bereich von 64 KB bis 8 KB bestanden. Jede Konfiguration umfasste 1, 2 und 4 gleichzeitige Jobs mit Warteschlangentiefen von 1, 2, 4, 8, 16 und 32, um die Durchsatzskalierbarkeit und Latenz unter typischen Edge-Write-Bedingungen zu profilieren.
Es wurde auch ein stark gemischtes Blockgrößenprofil verwendet, das den CDN-Inhaltsabruf nachahmt – beginnend mit einer dominanten 128K-Komponente (83,21 %), gefolgt von einem langen Schwanz aus über 30 kleineren Blockgrößen (4K bis 124K), jeweils mit fraktionaler Frequenzdarstellung. Diese Verteilung spiegelt die unterschiedlichen Anforderungsmuster wider, die beim Abrufen von Videosegmenten, beim Zugriff auf Miniaturansichten und bei der Suche nach Metadaten auftreten. Diese Tests wurden auch für die gesamte Matrix aus Jobanzahl und Warteschlangentiefe durchgeführt.
Diese Kombination aus Vorkonditionierung, Sättigung und randomisierten Zugriffstests gemischter Größe soll zeigen, wie SSDs in dauerhaften CDN-ähnlichen Umgebungen funktionieren, wobei der Schwerpunkt auf Reaktionsfähigkeit und Effizienz in bandbreitenintensiven, stark parallelisierten Szenarien liegt.
CDN-Workload-Lesung 1
In unseren CDN-Workload-Lesetests (1 Auftrag) lieferte die Kingston DC3000ME eine solide Leistung, die sich mit zunehmender Warteschlangentiefe effektiv skalieren ließ. Bei QD1 erreichte es 940 MB/s und lag damit etwa 26 % hinter der SanDisk SN861. Mit zunehmender Warteschlangentiefe verringerte sich jedoch die Lücke beim DC3000ME und übertraf mehrere Gen5-Laufwerke. Bei QD4 erreichte die Kingston DC3000ME 3.390 MB/s – etwa 42 % schneller als die Micron 9550, 40 % vor der Pascari Bei QD16 erreichte die DC3000ME 9.645 MB/s und übertraf damit die Solidigm PS1010 um ca. 13 % und die Micron 9550 um ca. 20 %. Bei der maximalen Testtiefe von QD32 erreichte Kingston 14.131 MB/s und erreichte damit effektiv den Micron 9550 und übertraf den Solidigm PS1010 um ~15 % und den SanDisk SN861 um fast 10 %.
Kingston DC3000ME – CDN-Workload 1 Job lesen
CDN-Workload-Lesung 2
Bei der 2-Job-CDN-Lese-Workload behielt die Kingston DC3000ME über alle Warteschlangentiefen hinweg eine starke Leistung bei. Bei QD1 wurden 1.854 MB/s erreicht – schneller als der Micron 9550 (1.548 MB/s) um 20 %, der Pascari 34 %.
Bei QD4 erreichte Kingston 6.335 MB/s und übertraf damit deutlich Micron (5.337 MB/s), Pascari (5.249 MB/s) und Solidigm (5.609 MB/s). Es blieb jedoch immer noch hinter SanDisk zurück, das mit 6.996 MB/s den Spitzenplatz belegte.
Bis QD16 erreichte Kingston 14.131 MB/s und lag damit an der Spitze. Beim letzten Testpunkt (QD32) erreichte es einen leichten Anstieg auf 14.336 MB/s und lag damit etwa 6 % bzw. 5 % hinter Pascari (15.257 MB/s) und Micron (15.052 MB/s), während es gleichzeitig einen soliden Vorsprung vor SanDisk (13.619 MB/s) und Solidigm (13.721 MB/s) hatte.
CDN-Arbeitslast lesen 4
Mit vier aktiven Jobs konnte sich die Kingston DC3000ME weiterhin bei der CDN-Leseleistung behaupten. Bei QD1 erreichte es 3.639 MB/s und übertraf damit die Micron 9550 (3.070 MB/s) und Pascari Bis QD4 lieferte Kingston 10.854 MB/s – eine Verbesserung von 15 % gegenüber Micron (9.427 MB/s), 20 % vor Pascari (9.070 MB/s) und leicht über Solidigm (9.627 MB/s). Es blieb jedoch immer noch hinter den 11.161 MB/s von SanDisk zurück.
Bis zum 8. Quartal erreichte Kingston 13.926 MB/s – fast identisch mit Micron und ungefähr gleichauf mit SanDisk (13.619 MB/s) und Solidigm (12.800 MB/s). Bei QD16 und QD32 stagnierte der Durchsatz bei Kingston bei etwa 14.131–14.233 MB/s, leicht hinter Micron und Pascari (beide etwa 15.052–15.257 MB/s), aber immer noch deutlich vor SanDisk (13.619 MB/s) und Solidigm (13.721 MB/s).
CDN-Workload-Schreiben 1
Bei unserem CDN-Schreib-Workload (1 Job) zeigte der Kingston DC3000ME eine konsistente Skalierung über alle Warteschlangentiefen hinweg. Bei QD1 erreichte es 2.118 MB/s – schneller als die Micron 9550 (2.004 MB/s), Pascari Bei QD4 erzielte Kingston 4.318 MB/s – 55 % schneller als Solidigm (2.789 MB/s), 26 % schneller als Pascari (3.437 MB/s), aber 10 % langsamer als Micron (4.807 MB/s) und 19 % hinter SanDisk (5.353 MB/s).
Bis QD16 lieferte es 5.880 MB/s und übertraf damit Pascari (4.921 MB/s) um 20 % und mehr als das Doppelte von Solidigm (2.664 MB/s), aber immer noch 11 % hinter Micron (6.686 MB/s) und 15 % vor SanDisk (6.939 MB/s). Bei QD32 erreichte Kingston eine Höchstgeschwindigkeit von 5.987 MB/s – wiederum nahe an Pascari (5.913 MB/s), aber mit ca. 20 % bzw. 25 % Rückstand auf Micron (7.422 MB/s) und SanDisk (7.521 MB/s).
Kingston DC3000ME – Schreibleistung CDN-Workload 1 Job
CDN-Workload-Schreiben 2
Bei der 2-Job-CDN-Schreiblast zeigte die Kingston DC3000ME eine konstante Leistung, blieb jedoch im Allgemeinen hinter den schnellsten Gen5-SSDs der Enterprise-Klasse zurück. Bei QD1 wurden 2.651 MB/s erreicht – knapp unter dem Micron 9550 (2.813 MB/s) und dem Pascari X200P (2.762 MB/s) und etwa 33 % hinter dem SanDisk SN861 (3.972 MB/s).
Mit zunehmender Warteschlangentiefe konnte die DC3000ME Schritt halten. Bei QD4 erreichte es 4.807 MB/s – etwa 23 % langsamer als der Micron 9550 (5.902 MB/s) und 13 % hinter dem SanDisk SN861 (5.508 MB/s), aber vor dem Solidigm PS1010 mit 3.154 MB/s.
Bei QD16 lieferte Kingston 5.772 MB/s – immer noch hinter Micron (7.896 MB/s) und SanDisk (6.709 MB/s), übertraf aber weiterhin niedrigere Modelle wie Solidigm PS1010 (3.820 MB/s) und Pascari X200P (5.417 MB/s). Bei QD32 erreichte die DC3000ME einen Spitzenwert von 5.870 MB/s – etwa 32 % hinter der Micron 9550 (8.670 MB/s) und 22 % unter der SanDisk SN861 (7.537 MB/s), aber immer noch vor der Solidigm PS1010 (2.817 MB/s) und Pascari (4.585 MB/s).
CDN-Workload-Schreiben 4
Bei der 4-Job-CDN-Schreiblast skalierte die Kingston DC3000ME über alle Warteschlangentiefen hinweg stetig, blieb jedoch im Allgemeinen hinter den beiden besten Gen5-Laufwerken zurück. Bei QD1 erreichte es 2.202 MB/s und lag damit hinter dem Pascari Bei QD2 erreichte Kingston 3.165 MB/s und blieb damit erneut hinter SanDisk (4.863 MB/s) und Micron (4.457 MB/s) zurück, behielt jedoch einen Vorsprung vor Solidigm (2.872 MB/s).
Bei mittleren Warteschlangentiefen erreichte die Kingston DC3000ME 3.647 MB/s bei QD4 und 4.410 MB/s bei QD8. Obwohl dies eine ordentliche Skalierung zeigte, blieb es bei beiden Testpunkten hinter dem Micron-Laufwerk (5.539 MB/s und 6.478 MB/s) und dem SanDisk-Laufwerk (5.177 MB/s und 5.575 MB/s). Bei QD16 lieferte Kingston 4.865 MB/s – ein bescheidener Zuwachs gegenüber QD8, liegt aber immer noch hinter dem SanDisk-Laufwerk (6.011 MB/s) und dem Micron-Laufwerk (7.474 MB/s). Bei QD32 erreichte die DC3000ME mit 5.307 MB/s ihren Höhepunkt und lag damit deutlich vor Solidigm (3.894 MB/s), aber deutlich hinter Micron (7.941 MB/s) und SanDisk (7.212 MB/s). Das Kingston-Laufwerk war zwar kein Spitzenreiter bei der Leistung, behielt jedoch eine gleichbleibende Skalierung und Effizienz bei.
DLIO Checkpointing Benchmark
Um die reale Leistung von SSDs in KI-Trainingsumgebungen zu bewerten, haben wir das Benchmark-Tool Data and Learning Input/Output (DLIO) verwendet. DLIO wurde vom Argonne National Laboratory entwickelt und ist speziell zum Testen von I/O-Mustern in Deep-Learning-Workloads konzipiert. Es liefert Erkenntnisse darüber, wie Speichersysteme Herausforderungen wie Checkpointing, Datenaufnahme und Modelltraining bewältigen. Die folgende Tabelle zeigt, wie beide Laufwerke den Prozess über 36 Kontrollpunkte hinweg abwickeln. Beim Training von Modellen für maschinelles Lernen sind Prüfpunkte von entscheidender Bedeutung, um den Status des Modells regelmäßig zu speichern und Fortschrittsverluste bei Unterbrechungen oder Stromausfällen zu verhindern. Dieser Speicherbedarf erfordert eine robuste Leistung, insbesondere bei anhaltender oder intensiver Arbeitslast. Wir haben die DLIO-Benchmark-Version 2.0 aus der Veröffentlichung vom 13. August 2024 verwendet.
Um sicherzustellen, dass unser Benchmarking reale Szenarien widerspiegelt, haben wir unsere Tests auf der Modellarchitektur LLAMA 3.1 405B basiert. Wir haben Checkpointing mit Torch.save() implementiert, um Modellparameter, Optimiererzustände und Ebenenzustände zu erfassen. Unser Setup simulierte ein System mit acht GPUs und verwendete dabei eine Hybrid-Parallelitätsstrategie mit 4-Wege-Tensor-Parallelität und 2-Wege-Pipeline-Parallelverarbeitung, die auf die acht GPUs verteilt ist. Diese Konfiguration führte zu Prüfpunktgrößen von 1.636 GB – repräsentativ für die modernen Trainingsanforderungen für große Sprachmodelle.
Bei den DLIO-Durchschnittsergebnissen blieb die Kingston DC3000ME 7,68 TB leicht hinter den Spitzenkonkurrenten zurück und landete im Mittelfeld der Gruppe mit fünf Laufwerken. Die Checkpoint-Zeiten betrugen durchschnittlich 465,04 Sekunden im ersten Durchgang, 584,38 Sekunden im zweiten Durchgang und 590,30 Sekunden im dritten Durchgang. Während die Kingston DC3000ME durchweg schneller war als die Pascari
Wie in der Tabelle unten gezeigt, hatte die Kingston DC3000ME einen guten Start, wobei die frühen Checkpoint-Zeiten denen der Top-Konkurrenten weitgehend entsprachen. Am Kontrollpunkt 1 erreichte es 469,27 Sekunden – knapp hinter dem Micron 9550 mit 464,01 Sekunden und vor dem Pascari X200P mit 472,65 Sekunden. Von Kontrollpunkt 2 bis 4 hielt es einen konstanten Bereich von 461,92 bis 465,44 Sekunden und blieb damit wieder in der Nähe des Micron 9550 und des Solidigm PS1010, die sich beide im Bereich von 453 bis 465 Sekunden bewegten.
In der Mitte des Tests (Prüfpunkte 5 bis 8) erlebte die Kingston DC3000ME einen Sprung in den Prüfpunktzeiten und erreichte bei Prüfpunkt 7 einen Spitzenwert von 613,01 Sekunden. Das war mehr als der Micron 9550 (570,42 s) und der SanDisk SN861 7,68 TB (559,56 s), aber immer noch deutlich besser als der Pascari 694,38 Sekunden im gleichen Intervall). Gegen Ende des Tests stabilisierte sich der Kingston DC3000ME leicht und beendete Checkpoint 12 mit 571,36 Sekunden – etwa 28 Sekunden langsamer als der Micron 9550, aber immer noch schneller als der Pascari X200P (der bei 689,68 Sekunden schloss). Insgesamt zeigte die Kingston DC3000ME 7,68 TB eine konstante Leistung und blieb während der gesamten Checkpointing-Arbeitslast im Wettbewerbsbereich, womit sie im Mittelfeld lag.
FIO-Leistungsbenchmark
Um die Speicherleistung jeder SSD anhand gängiger Branchenkennzahlen zu messen, haben wir FIO verwendet. Jedes Laufwerk durchlief den gleichen Testprozess, einschließlich eines Vorkonditionierungsschritts mit zwei vollständigen Laufwerksfüllungen mit einer sequenziellen Schreibauslastung, gefolgt von einer Messung der stationären Leistung. Als sich jeder Workload-Typ änderte, führten wir eine weitere Vorkonditionierungsfüllung mit dieser neuen Übertragungsgröße durch.
In diesem Abschnitt konzentrieren wir uns auf die folgenden FIO-Benchmarks:
-128K sequentiell
-64K zufällig
-16K zufällig
-4K zufällig
Bei QLC-SSDs mit hoher Kapazität, die für große Übertragungsgrößen ausgelegt sind, sind unsere Schreibgeschwindigkeitstests auf 16 KB zufällig begrenzt. Für 4K haben wir den vorab ausgefüllten Zustand der 16K-Arbeitslast verwendet, um nur die zufällige Leseleistung von 4K zu messen.
128K sequentielle Vorbedingung (IODepth 256 / NumJobs 1)
Bei diesem Vorkonditionierungstest mit hoher Warteschlangentiefe behielt die Kingston DC3000ME während des gesamten 1.000-Sekunden-Laufs eine konstante Schreibbandbreite von 8.944,9 MB/s bei (und endete kurz nach der 800-Sekunden-Marke). Der Kingston DC3000ME ist zwar nicht der Schnellste (leicht hinter dem Micron 9550 zurückliegend, der mit 10,3 GB/s seinen Höhepunkt erreichte), zeigte aber einen konstanten Durchsatz mit minimalen Abweichungen.
128K sequentielle Vorbedingungslatenz (IODepth 256 / NumJobs 1)
Im 128K Sequential Write Precondition-Latenztest zeigte die Kingston DC3000ME eine durchschnittliche Latenz von 3,577 ms (bleibt über die Zeit stabil mit minimalen Schwankungen) und liegt damit an zweiter Stelle hinter der Micron-Festplatte.
128K sequentielles Schreiben (IODepth 16 / NumJobs 1)
Im 128K Sequential Write Test erreichte die Kingston DC3000ME 8.477,4 MB/s und lag damit knapp hinter der Micron 9550 (die die Gruppe mit 10.354,6 MB/s anführte). Die Kingston DC3000ME übertraf die Pascari Kingstons Leistung spiegelt ein starkes Gleichgewicht zwischen Geschwindigkeit und Beständigkeit wider.
128K sequentielle Schreiblatenz (IODepth 16 / NumJobs 1)
Beim 128K Sequential Write Latency Test lieferte die Kingston DC3000ME ein solides Ergebnis mit einer durchschnittlichen Latenz von 235,6µs. Damit liegt es sowohl vor dem SanDisk SN861 (280,7 µs) als auch dem Solidigm PS1010 (280,3 µs) und liegt leicht vor dem Pascari X200P (238,6 µs). Obwohl nicht ganz so schnell wie der Micron 9550 (der mit 192,9 µs vorne lag), blieb der Kingston DC3000ME konkurrenzfähig.
128K sequentielles Lesen (IODepth 64 / NumJobs 1)
Im 128K Sequential Read-Test bei einer Warteschlangentiefe von 64 mit einem Job erreichte die Kingston DC3000ME 13.513,8 MB/s. Obwohl es unter den getesteten Laufwerken den vierten Platz belegte, lieferte es dennoch einen starken Durchsatz (mit minimalen Unterschieden in der Praxis). Es lag um ~5,1 % hinter dem Pascari Insgesamt waren die Ergebnisse der Kingston DC3000ME stark, mit minimalen Einbußen im Vergleich zu den am besten getesteten Laufwerken.
128K sequentielle Leselatenz (IODepth 64 / NumJobs 1)
Bei der Latenz verzeichnete die Kingston DC3000ME einen Durchschnitt von 591,6 µs und lag damit im Mittelfeld der Gruppe. Dieses Ergebnis war 5,4 % höher als beim Micron 9550 (569,0 µs) und 5,4 % niedriger als beim Solidigm PS1010 (564,5 µs). Der Pascari X200P lag mit 561,4 µs knapp in Führung, während der SanDisk SN861 mit 633,0 µs die langsamste Reaktion zeigte. Letztendlich behielt die Kingston DC3000ME unter Lesebedingungen mit hoher Warteschlangentiefe eine relativ niedrige Latenz bei.
64K Zufälliges Schreiben
Im 64K-Random-Write-Test lieferte die Kingston DC3000ME über verschiedene Warteschlangentiefen und Thread-Kombinationen hinweg konstant hohe Leistung und erreichte in der Konfiguration mit 32 (IO-Tiefe)/8 (Anzahl Jobs) einen Spitzenwert von 6.649 MB/s – eine der höchsten über alle Workloads und Testpunkte hinweg.
Im gesamten Diagramm behielt die Kingston DC3000ME einen stabilen Bandbreitentrend von 4.000 bis 5.000 MB/s bei, mit besonders starken Ergebnissen bei mittleren bis hohen Parallelitätskonfigurationen (z. B. 32/4 bei 5.380 MB/s und 16/8 bei 5.017 MB/s). Selbst unter leichteren Bedingungen (1/4 und 2/4) blieb die Geschwindigkeit über 4.200 MB/s. Im Vergleich zu anderen Laufwerken lag die Kingston DC3000ME in den meisten Testpunkten allgemein an der Spitze oder blieb in der Nähe der Spitze und bot sowohl einen hohen Spitzendurchsatz als auch eine konstante Leistung.
64K zufällige Schreiblatenz
Im 64K Random Write Latency-Test lieferte die Kingston DC3000ME über die meisten Warteschlangentiefen und Auftragskombinationen hinweg durchweg niedrige Reaktionszeiten und demonstrierte so eine starke Schreibeffizienz selbst unter hoher Last.
Zum Beispiel:
- Bei 4/1 wurden 49µs angezeigt
- Bei 8/1 blieb die Latenz mit 102 µs niedrig
- Bei 16/4 wurden 1.486 µs gemessen
- Und bei der höchsten getesteten Last, 32/8, wurden 2.402 µs erreicht
Diese Ergebnisse deuten darauf hin, dass die Kingston DC3000ME vorhersehbar skaliert wurde und die starken Latenzspitzen vermieden hat, die bei anderen Laufwerken zu beobachten waren – insbesondere bei den Pascari- und Solidigm-Modellen, die unregelmäßige Sprünge über 3.000–6.000 µs aufwiesen (am deutlichsten bei 16/8).
64K Zufälliges Lesen
Im 64K-Random-Read-Test lieferte die Kingston DC3000ME eine starke, konstante Leistung über die gesamte IO Depth/NumJobs-Matrix und belegte am Ende des Tests (mit geringem Vorsprung) den vierten Platz. Die Spitzenbandbreite erreichte 13.515 MB/s bei 32/4, mit einem ähnlich hohen Durchsatz bei 16/4 (13.482 MB/s) und 32/8 (13.512 MB/s) – ein Beweis für hervorragende Skalierbarkeit bei hohen parallelen Lese-Workloads. Bei geringerer Last (1/4 und 2/2) erreichte die Kingston DC3000ME 2.298 MB/s bzw. 2.234 MB/s.
64K zufällige Leselatenz
Die 64K-Latenz der Kingston DC3000ME blieb über alle Testpunkte hinweg relativ niedrig. Alle Laufwerke schnitten ähnlich ab, obwohl die SanDisk SN861 am Ende des Tests einen deutlich höheren Spitzenwert als andere erreichte. Beginnend mit 1/2 maß die Kingston DC3000ME 106 µs, gefolgt von 108 µs bei 1/4, 131 µs bei 8/1, 133 µs bei 4/4 und 177 µs bei 8/4. Bei höherer Parallelität stieg sie auf 305 µs bei 16/4, 174 µs bei 32/1, 301 µs bei 32/2 und erreichte mit 1.184 µs unter 32/8 ihren Höhepunkt – was dem Rest der Gruppe entspricht. Insgesamt entsprach das Latenzprofil der Kingston DC3000ME eng den Spitzenleistungen, mit minimalem Jitter oder Ausreißerspitzen (wie bei allen getesteten Laufwerken üblich).
16K zufälliges Schreiben
Im 16K-Random-Write-Test lieferte die Kingston DC3000ME eine hohe Bandbreite über die gesamte Bandbreite an Warteschlangentiefen und Thread-Anzahlen und belegte unter den konkurrierenden Laufwerken den zweiten Platz. In der 32/16-Konfiguration wurden 427.592 IOPS erreicht. Weitere leistungsstarke Punkte waren 338.521 IOPS bei 32/8, 251.428 IOPS bei 16/4 und 226.606 IOPS bei 1/8 – allesamt Anzeichen einer hervorragenden Controller-Effizienz bei unterschiedlichen parallelen Lasten. Selbst bei moderaten Lastkonfigurationen (2/16 und 1/4) erreichte das Laufwerk 218.300 IOPS bzw. 204.867 IOPS. Insgesamt erreichte die Kingston DC3000ME in der gesamten Testmatrix durchweg IOPS über 160.000 (mit Ausnahme einiger weniger Bereiche), was sie zu einem der ausgeglicheneren Laufwerke in dieser Arbeitslast macht.
16K zufällige Schreiblatenz
Die 16K-Schreiblatenzleistung der Kingston DC3000ME war hervorragend und landete an der Spitze der Bestenliste (wobei die Pascari-Festplatte leicht zurückblieb). Zu den Highlights gehörten 14 µs bei 1/1, 18 µs bei 2/1, 19 µs bei 1/4 und 29 µs bei 1/2. Mit zunehmender Last behielt Kingston ein starkes Latenzprofil bei: 126 µs bei 8/4, 146 µs bei 2/16, 254 µs bei 16/4 und 575 µs bei 16/8. Selbst bei der schwersten Konfiguration (32/16) blieb die Latenz mit 1.197 µs kontrolliert.
16.000 zufällige Lesevorgänge
Unter 16K-Zufallslesebedingungen zeigte die Kingston DC3000ME eine konstant starke Leistung, bis sie 8/8 erreichte, dann begann sie leicht zurückzufallen. Der Spitzen-IOPS-Wert lag bei knapp 800.000 (648.686) bei QD32 mit vier Jobs, gefolgt von 641.000 IOPS bei QD4 mit 16 Jobs und 623.000 bei QD16 mit vier Jobs. Leider landete die Kingston DC3000ME neben der SanDisk-Festplatte ganz unten auf der Bestenliste.
16K zufällige Leselatenz
Bei Spitzendurchsatz (QD8/8) betrug die Latenz der Kingston DC3000ME nur 99 µs und blieb bei den meisten Konfigurationen in einem schmalen, niedrigen Latenzband, bis sie bei etwa 16/8 zu schwächeln begann. Die beste Latenz wurde bei QD1/4 (74 µs) beobachtet, mit mehreren anderen Ergebnissen unter 80 µs bei niedrigen bis mittleren Warteschlangentiefen. Bei höherer Last (z. B. QD32/16) erzielte die Kingston DC3000ME 826 µs – deutlich mehr als andere getestete Laufwerke (außer SanDisk).
4K-Zufallslesen
Im 4K-Random-Read-Test zeigte die Kingston DC3000ME über den gesamten Testbereich eine hervorragende Skalierung und erreichte in der 16/16-Konfiguration einen Spitzenwert von 1.957,92 K IOPS. Der Durchsatz blieb mit 1.923,42.000 IOPS bei 32/8, 1.361,32.000 IOPS bei 8/16 und 1.326,03.000 IOPS bei 16/8 hoch und lag damit konstant an der Spitze der Rangliste neben Solidigm und Micron.
4K-Zufallsleselatenz
Die Kingston DC3000ME behielt während des 4K-Zufallslesetests eine niedrige Latenz bei, beginnend bei 60 µs in der 1/1-Konfiguration. Bei 1/4 verbesserte sie sich leicht auf 61 µs und bei 1/8 blieb sie konstant bei 63 µs. Mit zunehmender Parallelität skalierte die Latenz vorhersehbar: 66 µs bei 2/4, 67 µs bei 2/16, 71 µs bei 4/4 und 80 µs bei 8/4. Schwerere Konfigurationen verzeichneten bescheidene Anstiege: 94 µs bei 16/4, 99 µs bei 16/8, 135 µs bei 32/8 und einen Spitzenwert von 266 µs bei 32/16.
4K-Zufallsschreiben
Beim 4K-Zufallsschreiben lieferte die Kingston DC3000ME eine starke Leistung mit maximal 979.636 IOPS bei 32/16 und 979.173 IOPS bei 32/8 und lag damit deutlich hinter dem Spitzenreiter (Pascari X200P, der in der Spitze 1,6 Mio. IOPS überschritt). Allerdings erzielte die Kingston DC3000ME bei mittlerer Last ordentliche Werte: 879.000 IOPS bei 8/16, 944.000 IOPS bei 16/16 und 745.000 IOPS bei 16/4.

4K zufällige Schreiblatenz
Bei der zufälligen Schreiblatenz startete die Kingston DC3000ME bei 11 µs unter 1/1, blieb bei etwa 20–50 µs, bis sie die 8/8-Tiefe erreichte, und skalierte auf 261 µs bei 32/8 und 522 µs bei 32/16. Obwohl die Latenz nicht die niedrigste war, behielt die Kingston DC3000ME eine vorhersehbare, moderate Skalierung bei – ohne die Spitzen, die bei Laufwerken wie Solidigm und Pascari zu beobachten waren, die über 16 Threads hinaus eine größere Volatilität zeigten.
GPU-Direktspeicher
Einer der Tests, die wir auf dieser Testbench durchgeführt haben, war der Magnum IO GPU Direct Storage (GDS)-Test. GDS ist eine von NVIDIA entwickelte Funktion, die es GPUs ermöglicht, die CPU zu umgehen, wenn sie auf Daten zugreifen, die auf NVMe-Laufwerken oder anderen Hochgeschwindigkeitsspeichergeräten gespeichert sind. Anstatt Daten über die CPU und den Systemspeicher zu leiten, ermöglicht GDS die direkte Kommunikation zwischen der GPU und dem Speichergerät – was die Latenz deutlich reduziert und den Datendurchsatz verbessert.
So funktioniert GPU Direct Storage
Wenn eine GPU traditionell auf einem NVMe-Laufwerk gespeicherte Daten verarbeitet, müssen die Daten zunächst die CPU und den Systemspeicher durchlaufen, bevor sie die GPU erreichen. Dieser Prozess führt zu Engpässen, da die CPU als Mittelsmann fungiert, was die Latenz erhöht und wertvolle Systemressourcen verbraucht. GPU Direct Storage beseitigt diese Ineffizienz, indem es der GPU ermöglicht, über den PCIe-Bus direkt auf Daten vom Speichergerät zuzugreifen. Dieser direkte Pfad reduziert den Datenbewegungsaufwand und ermöglicht schnellere und effizientere Übertragungen.
KI-Workloads – insbesondere Deep Learning – sind äußerst datenintensiv. Das Training großer neuronaler Netze erfordert die Verarbeitung von Terabytes an Daten, und jede Verzögerung bei der Datenübertragung kann zu einer unzureichenden Auslastung der GPUs und längeren Trainingszeiten führen. GPU Direct Storage begegnet dieser Herausforderung, indem es sicherstellt, dass Daten so schnell wie möglich an die GPU übermittelt werden, wodurch Leerlaufzeiten minimiert und die Recheneffizienz maximiert werden.
Darüber hinaus ist GDS besonders vorteilhaft für Workloads, bei denen große Datenmengen gestreamt werden (z. B. Videoverarbeitung, Verarbeitung natürlicher Sprache oder Echtzeit-Inferenz). Durch die Reduzierung der Abhängigkeit von der CPU beschleunigt GDS die Datenbewegung und setzt CPU-Ressourcen für andere Aufgaben frei – was die Gesamtsystemleistung weiter verbessert.
Lesedurchsatz
Bei unseren sequenziellen GDSIO-Lesetests zeigte die Kingston DC3000ME eine konsistente, effiziente Durchsatzskalierung über 16K-, 128K- und 1-MB-Blockgrößen hinweg – wobei die Leistungstrends je nach Übertragungsgröße leicht variierten. Bei 16-KByte-Blöcken stieg der Durchsatz mit zunehmender Thread-Anzahl stetig an und erreichte bei 32 Threads einen Spitzenwert von 3,70 GiB/s, bevor er bei 128 Threads allmählich auf 3,41 GiB/s abfiel. Bei 128-KByte-Übertragungen erzielte das Laufwerk sein bestes Ergebnis von 5,88 GiB/s bei 16 Threads und behielt dieses Niveau über 32 Threads bei, bevor es bei 128 Threads auf ~5,35 GiB/s abfiel. Bei 1 MB erreichte der Durchsatz früher ein Plateau und erreichte 6,54 GiB/s bei 16 Threads und sank leicht auf 5,91 GiB/s bei 128 Threads.

Leselatenz
In Bezug auf die Latenz zeigte die DC3000ME eine vorhersehbare Skalierung (konsistent mit allen getesteten Laufwerken): Eine geringere Thread-Anzahl führte zu kürzeren Antwortzeiten über alle Blockgrößen hinweg, wobei die Latenz mit zunehmender Thread-Skalierung zunahm. Bei 16 KB begann die Latenz bei 504 µs und stieg durch 128 Threads schrittweise auf 582 µs an. Bei 128 KB begann die Latenz bei 260 µs und stieg bei der höchsten Thread-Anzahl auf 3.228 µs. Bei 1-MB-Blöcken zeigte die Latenz aufgrund der größeren Nutzlast einen größeren Sprung – beginnend bei 2.609 µs mit einem Thread und ansteigend auf 2.703 µs bei 128 Threads.

Schreibdurchsatz
Bei Lesevorgängen begann die durchschnittliche Latenz mit 16-KByte-Blöcken bei 2.247 µs mit einem einzelnen Thread und sank auf 504 µs bei 128 Threads – ein Beweis für eine effiziente Skalierung bei Parallelität. Bei 128-KByte-Blöcken begann die Latenz zunächst bei 4.035 µs und sank schrittweise auf 2.601 µs bei 128 Threads. Mit 1 Mio. Blöcken hatte die Kingston DC3000ME insgesamt die niedrigste Latenz – sie begann bei 2.609 µs mit einem Thread und blieb im Bereich von 2.500–2.700 µs über 128 Threads, was eine konsistente Reaktionsfähigkeit bei großen sequentiellen Lesevorgängen demonstriert.

Schreiblatenz
Die durchschnittliche Latenz blieb über die Thread-Anzahl von 1 bis 16 hinweg relativ stabil und lag bei etwa 12.234 bis 14.247 µs. Bei 32 Threads erhöhte sich die Latenz leicht auf 15.559 µs und kletterte bei 64 Threads auf 20.944 µs. Ein deutlicher Anstieg trat bei 128 Threads auf, wo die Latenz der Kingston DC3000ME auf 28.725 µs anstieg – mehr als das Doppelte des vorherigen Wertes.

Abschluss
Der Kingston DC3000ME ist als praktische Lösung für gängige Unternehmens- und Rechenzentrumsimplementierungen positioniert, bei denen Zuverlässigkeit, konsistente Leistung und ein solider Satz an Unternehmensfunktionen wichtige Anforderungen sind. Diese Initiative richtet sich an Systemintegratoren, Value-Added-Reseller (VARs) und IT-Teams in KMU- und KMU-Umgebungen, die ihre eigene Infrastruktur aufbauen und verwalten. Sein U.2-Formfaktor und die PCIe-Gen5-Unterstützung bieten umfassende Kompatibilität und zukunftssichere Bandbreite, was ihn zu einem starken Kandidaten für kanalgesteuerte Bereitstellungen macht.

Kingston DC3000ME Winkel
Aus Leistungssicht bietet der DC3000ME wettbewerbsfähigen Durchsatz und Effizienz bei einer Reihe von Arbeitslasten. Seine Stärken liegen in soliden sequentiellen Lesevorgängen, guter Schreibkonsistenz und konsistenter Latenzskalierung bei gemischten und zufälligen Arbeitslasten. Während es in bestimmten anspruchsvollen CDN- oder Checkpointing-Benchmarks gelegentlich hinter den Top-Gen5-Performern (z. B. Micron und SanDisk) zurückbleibt, bleibt es konkurrenzfähig – insbesondere in Szenarios mit anhaltender Mischlast und mäßiger Parallelität.
Insgesamt eignet sich die DC3000ME gut für allgemeine Unternehmens-Workloads und erfüllt die Anforderungen von Unternehmen, die Hochleistungsspeicher bereitstellen möchten, ohne auf stark angepasste OEM-Lösungen angewiesen zu sein. VARs und Systementwickler werden hier viel zu schätzen wissen, insbesondere wenn es darum geht, Kosten, Leistung und Skalierbarkeit in praktischen Infrastrukturbereitstellungen in Einklang zu bringen.
Peking Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
E-Mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Geschäftsschwerpunkt:
IKT-Produktvertrieb/Systemintegration und -dienste/Infrastrukturlösungen
Mit mehr als 20 Jahren Erfahrung im IT-Vertrieb arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.
„Mit Technologie eine intelligente Welt aufbauen“ Ihr vertrauenswürdiger IKT-Produktdienstleister!