Spezifikationen für DapuStor J5060
| J5060 | |
|---|---|
| Kapazität (TB) | 61.44 |
| Formfaktor | U.2 15 mm |
| Schnittstelle | PCIe 4.0 x4, NVMe 1.4a, Dual-Port unterstützt |
| Lesen/Schreiben Bandbreite (128K) MB/s | 7400 / 3000 |
| Zufälliges Lesen/Schreiben (4KB) K IOPS | 1500 / 30 (16KB) |
| 4K-Zufallsverzögerung (typisch) R/W μs | 105 (4KB) / 33 (16KB) |
| 4K Sequential Latency (typisch) R/W μs | 7 (4KB) / 12 (16KB) |
| Typische Leistung (W) | 23 |
| Leistung im Leerlauf (W) | 5 |
| Flash-Typ | 3D Enterprise QLC und NAND Flash |
| Ausdauer | 0.5 DWPD |
| MTBF | 2 Millionen Stunden |
| UBER | 1 Sektor pro 10^17 gelesenen Bit |
| Gewährleistung | 5 Jahre |
DapuStor J5060 Leistung
Kontrollstellen
Um die tatsächliche Leistung der Dapustor J5060 SSD in KI-Trainingsumgebungen zu bewerten, haben wir dieDaten- und Lerninput/Output-Benchmark-Tool (DLIO)DLIO wurde vom Argonne National Laboratory entwickelt und ist speziell dafür konzipiert, E/A-Muster in Deep-Learning-Workloads zu testen.Es gibt Einblicke in die Art und Weise, wie Speichersysteme mit Herausforderungen wie Checkpoints umgehen.Die folgende Tabelle zeigt, wie beide Antriebe den Prozess über 99 Checkpoints hinweg handhaben.Kontrollpunkte sind unerlässlich, um den Modellzustand regelmäßig zu speichernDiese Speicherungsanforderung erfordert eine robuste Leistung, insbesondere bei anhaltenden oder intensiven Arbeitsbelastungen.
Die für diese Arbeit gewählte Plattform war unser Dell PowerEdge R760 mit Ubuntu 22.04.02 LTS. Wir haben DLIO Benchmark Version 2.0 vom 13. August 2024 verwendet.
- 2 x Intel Xeon Gold 6430 (32-Core, 2,1 GHz)
- 16 x 64 GB DDR5-4400
- 480 GB Dell BOSS SSD
- Serienkabel Gen5 JBOF
- 61.44TB Dapustor J5060
- 61.44TB Solidigm D5-P5336
Um sicherzustellen, dass unser Benchmarking reale Szenarien widerspiegelt, haben wir unsere Tests auf der LLAMA 3.1 405B-Modellarchitektur basiert.Zustände des OptimiererUnser Setup simulierte ein 8-GPU-System und implementierte eine Hybrid-Parallelismus-Strategie mit 4-Wege-Tensor-Parallel und 2-Wege-Pipeline-Parallelverarbeitung, verteilt auf acht GPUs..Diese Konfiguration führte zu Kontrollpunkte mit einer Größe von 1.636 GB, was für die Anforderungen an die Ausbildung moderner großflächiger Sprachmodelle repräsentativ ist.
Insgesamt zeigte der Dapustor J5060 eine solide Konsistenz während der Anfangsphase der Tests, wobei die Zeiten für die ersten 33 Checkpoints bei 575,66 Sekunden lagen.Der 5060J konnte eine höhere Leistung beibehalten, bevor der Antrieb zum ersten Mal gefüllt wurde.Auf der anderen Seite zeigte das Solidigm P5336, obwohl es anfangs langsamer war als das J5060, eine gleichbleibende Leistung, während die Tests fortgesetzt wurden.
Wann?Das Dapustor J5060 verzeichnete eine Zeit von769.44 Sekunden., während der Solidigm P5336 in 640.17 Sekunden.Dies versetzt den Solidigm P5336 in den Vordergrund, wenn es darum geht, Kontrollpunkte schneller zu speichern.
Insgesamt kann der Dapustor J5060 kurze Operationen gut bewältigen, aber er hat Probleme mit dauerhaften Aufzeichnungen über 30 Minuten hinaus.Der Solidigm P5336 ist der bessere Antrieb für eine gleichbleibende Leistung bei längeren AufgabenDiese schwächere Schreibleistung des Dapustor J5060 zeigt sich, wenn sich die Checkpointing-Geschwindigkeit während des Tests verschlechtert.
GPU-Direktspeicher
GPU Direct Storage ist eine Technologie, die eine direkte Datenübertragung zwischen Speichergeräten und GPUs ermöglicht, wobei die CPU und der Systemspeicher umgangen werden.Daten werden vom Speicher in den CPU-Speicher gelesen und dann in den GPU-Speicher kopiertDieser Prozess beinhaltet mehrere Datenkopien, was zu einer erhöhten Latenzzeit und reduzierter Leistung führt. Die CPU fungiert als Engpass, da sie die Datenübertragung zwischen Speicher und GPU handhaben muss.GDS beseitigt diesen Engpass, indem Speichergeräte Daten direkt in den Speicher der GPU übertragen können.
Wir haben systematisch jede Kombination der folgenden Parameter sowohl bei Lesen als auch bei Schreiben getestet:
- Blockgrößen: 1M, 128K, 16K
- IODiefe: 128, 64, 32, 16, 8, 4, 1
Während wir unsere GDSIO-Ergebnisse überprüfen, untersuchen wir die Lese- und Schreibleistung der 61,44TB Dapustor J5060 und Solidigm P5336.
GDSIO Sequential Read Performance (Sequenzielle Leseleistung von GDSIO)
Der Dapustor J5060 erzielt bei einer 1M-Blockgröße mit IO-Tiefen von 64 und 128 einen Spitzenleseraufschlag von 4,2 GiB/s. Bei der kleinsten Blockgröße (16K) reicht die Leistung von 0,1 GiB/s bis 0.8 GiB/s mit zunehmender IO-TiefeDies zeigt eine klare Vorliebe für größere Blockgrößen mit hohen IO-Tiefen für einen optimalen Durchsatz.Angabe der Effizienz des Antriebs bei der Abwicklung von Massendatenübertragungen.
Im Vergleich erreichte der Solidigm P5336 einen ähnlichen maximalen Durchsatz von 4.3 GiB/s bei derselben Blockgröße (1M), erreichte diese Leistung jedoch früher bei einer IO-Tiefe von 32 und behielt sie bei höheren IO-Tiefen konstant beiDies deutet auf eine etwas bessere Effizienz bei der Handhabung großer Blockgrößen bei einem breiteren Bereich von IO-Tiefen für den Solidigm P5336 hin.
Um einen besseren Vergleich zu ermöglichen, haben wir ein Differentialdiagramm, das beide Laufwerke vergleicht.während ein Block, der sich auf die rote Seite des Spektrums bewegt, eine Schwäche zeigtHier übertrifft der J5060 den P5336 in der Blockgröße 128K, außer für die Tiefen von 4 bis 8 IO.die in diesen Szenarien auf eine geringere Effizienz hindeutet.
Bei einem 16K-Blockmaß hält der Solidigm P5336 eine niedrigere Latenz als der Dapustor J5060 bei fast allen Blockgrößen und IO-Tiefen.Die Lücke wird stärker, wenn die Warteschlange tiefer wird.Bei 128K führt Solidigm wieder über die meisten Tiefen, mit Ausnahme hoher Belastungen (4,080 μs auf der J5060 gegenüber 5539 μs auf der P5336) in der Tiefe 128Bei der 1M-Blockgröße erhöhen sich beide Latenzen wie erwartet, aber der P5336 bleibt etwas besser kontrolliert, mit 29.138 μs gegenüber 29.512 μs bei der höchsten Warteschlange.
GDSIO-Sequenzschreibleistung
Der Dapustor J5060 zeigt einen konsistenten Schreibdurchsatz von 2,7 bis 2,8 GiB/s für 128K und 1M Blockgrößen über alle IO-Tiefen (außer 128K, 1 IO Tiefengröße, die 2,2GiB/s veröffentlicht.Leistungsbereiche von 0.5 GiB/s bis 1,4 GiB/s, abhängig von der IO-Tiefe, mit einem Höchststand von 1,4 GiB/s bei höheren IO-Tiefen.
Im Vergleich dazu leistet der Solidigm P5336 bei 128K- und 1M-Blockgrößen eine bessere Leistung, mit einem Höchststand von 3,2 GiB/s. Für kleinere Blockgrößen (16K) zeigt der Solidigm P5336 auch eine höhere Leistung,mit einem Höchststand von 1.4 GiB/s bei IO-Tiefen von 16 bis 64. Dies deutet darauf hin, dass der Solidigm P5336 bei kleineren Blockgrößen bei Schreibvorgängen etwas effizienter ist.
Wenn wir auf eine Differenzialschau umsteigen, sehen wir eine größere Lücke zwischen der Dapustor J5060 und der Schreibleistung der Solidigm P5336.Unser Durchsatzvergleich zeigt, dass der J5060 in den meisten Bereichen hinter dem P5336 zurückbleibt, insbesondere bei großen Blockgrößen (1M) in allen IO-Tiefen. Durchsatzrückgänge erreichen -0,5 GiB/s bei den 4 IO-Tiefen.Sie sind nicht signifikant genug, um die allgemeine Leistungsunterschiede auszugleichen..
Beim Vergleich der sequentiellen Schreibverzögerung zwischen dem Dapustor J5060 und dem Solidigm P5336, zeigen beide Laufwerke ein ähnliches Verhalten bei kleineren Blockgrößen wie 16K,mit Solidigm, der bei niedrigeren IO-Tiefen einen leichten Rand hält, während Dapustor die Lücke bei höheren Tiefen schließt (64 und 128).Aber Dapustor liefert immer eine geringere Latenz, wenn die IO-Tiefe steigt., was auf eine bessere Skalierung unter Last hinweist. Mit 1M-Blockgrößen behält Solidigm jedoch einen klaren Latenzvorteil über alle IO-Tiefen hinweg,mit deutlich schnelleren Reaktionszeiten bei starken sequentiellen Schreib-WorkloadsInsgesamt ist Solidigm konsequenter, während Dapustors Stärke bei mittleren Blöcken und tieferen Warteschlangen sichtbarer ist.
Zusammenfassung der FIO-Arbeitsbelastung
Flexible I/O Tester (FIO) ist ein branchenübliches Benchmarking-Tool, das zur Messung der Leistung von Speichergeräten unter einer Vielzahl von Arbeitsbelastungsszenarien verwendet wird.Vertraut wegen seiner Vielseitigkeit und Zuverlässigkeit, FIO simuliert reale Bedingungen und liefert Einblicke in die Fähigkeiten und Leistungslimits einer SSD.,und IOPS über Arbeitsbelastungsmuster, Blockgrößen und Warteschlange.
angewandte Arbeitsbelastungen:
- 128K Sequential Lesen und Schreiben
- 64K zufälliges Lesen und Schreiben
- 16K Zufallslesen und Schreiben
- 4K-Zufallslesen und -Schreiben
Diese Arbeitslasten stellen ein breites Spektrum von Anwendungsfällen für Unternehmen dar, einschließlich großer sequentieller Übertragungen, intensiver zufälliger E/A, die für Datenbanken typisch sind,und kleine Block zufällige Zugriffe häufig in virtualisierten Umgebungen gesehen.
Dieser Leistungsabschnitt fasst die Leistung des Dapustor J5060 ′s bei wichtigen synthetischen Arbeitslasten zusammen, einschließlich sequentieller und zufälliger Lese-/Schreiboperationen bei unterschiedlichen Blockgrößen und Warteschlange.Die Metriken werden direkt aus der analysierten FIO-Ausgabe extrahiert und umfassen Bandbreite (MB/s), IOPS und Latenzperzentile von bis zu 99,9999%, was einen Einblick in den Durchsatz und das Verhalten des Hecks unter Last bietet.
128K Sequential Lesen und Schreiben Leistung
| Antrieb | Dimension der Schleife/IO | BW (MB/s) | Ausländische Ausländer | 990,0% | 990,9% | 99.99% |
|---|---|---|---|---|---|---|
| Dapustor J5060 Lesen | 1T/64Q | 7,482 | 57,081 | 10,66 ms | 20,02 ms | 20,83 ms |
| Solidigm P5336 lesen | 1T/64Q | 7,479 | 57,057 | 1.51 ms | 10,66 ms | 10,81 ms |
| Dapustor J5060 Schreiben | 1T/16Q | 3,023 | 23,063 | 00,69 ms | 00,69 ms | 0.70 ms |
| Solidigm P5336 Schreiben | 1T/16Q | 3,364 | 25,669 | 2.67 ms | 30,48 ms | 4.42 ms |
Der Dapustor J5060 liefert beeindruckende Sequenzleseleistung bei 128K, mit 7,48 GB/s mit enger Latenzkontrolle, auch bei höheren Perzentilen.Der Durchsatz der J5060 ̇ ist im Wesentlichen der gleiche (7.48GB/s vs. 7.47GB/s). Solidigm behält jedoch einen leichten Vorteil bei der Latenzkonsistenz bei und zeigt eine geringfügig niedrigere Tail-Latenz.
Bei 128K-Sequentialwrites (QD16) erreicht der J5060 eine solide Leistung von 3,023 MB/s mit sehr geringer Latenzzeit.Obwohl bei einer deutlich höheren LatenzzeitDies deutet darauf hin, dass der J5060 ein stärkerer Kandidat für latenzempfindliche sequentielle Schreibszenarien ist.
64K Zufallslesen und Schreiben
| Antrieb | IO-Tiefe | BW (MB/s) | Ausländische Ausländer | 990,0% | 990,9% | 99.99% |
|---|---|---|---|---|---|---|
| Dapustor J5060 Lesen | 8T/32Q | 7,475 | 114,058 | 200,05 ms | 210,89 ms | 250,82 ms |
| Solidigm P5336 lesen | 8T/32Q | 7,472 | 114,014 | 21.36 ms | 210,89 ms | 22.68 ms |
| Dapustor J5060 Schreiben | 8T/32Q | 534 | 8,151 | 574.6 ms | 708.8 ms | 742.39 ms |
| Solidigm P5336 Schreiben | 8T/32Q | 857 | 13,070 | 196.1 ms | 208.6 ms | 221.24 ms |
Bei 64K-Zufallslesungen (QD256) zeichnet sich der Dapustor J5060 mit einem Durchsatz von nahezu 7,4 GB/s und einer gut kontrollierten Latenzzeit aus.mit etwas besserer maximaler PerzentillatenzBeide Antriebe leisten hier außergewöhnliche Leistungen, mit minimalen praktischen Unterschieden.
Die Schreibleistung bei 64K-Zufall ist, wo die J5060 bemerkenswert kämpft, wobei der Durchsatz stark auf 534MB/s sinkt und die Latenz signifikant steigt (742.39ms bei 99,99%).Der Solidigm P5336 übertrifft deutlich den J5060, die 857 MB/s und eine drastisch geringere Latenzzeit (221,24 ms bei demselben Perzentil) liefern, was sie für latenzempfindliche Anwendungen und nachhaltigen Schreibdurchsatz wesentlich besser geeignet macht.
16K Zufallslesen und Schreiben
| Antrieb | IO-Tiefe | BW (MB/s) | Ausländische Ausländer | 990,0% | 990,9% | 99.99% |
|---|---|---|---|---|---|---|
| Dapustor J5060 Lesen | 8T/32Q | 7,430 | 453,461 | 5.28 ms | 6.39 ms | 8.16 ms |
| Solidigm P5336 lesen | 8T/32Q | 7,431 | 453,527 | 50,01 ms | 5.21 ms | 5.47 ms |
| Dapustor J5060 Schreiben | 8T/32Q | 531 | 32,404 | 143.65 ms | 1490,94 ms | 181.40 ms |
| Solidigm P5336 Schreiben | 8T/32Q | 847 | 51,724 | 57.9 ms | 65.8 ms | 71.8 ms |
Bei der 16K-Zufallsleselast (QD256) erzielt der Dapustor hervorragende Ergebnisse mit 453K IOPS und kontrollierter Latenzzeit.Das ist ein geringfügiger Ausfall von Dapustor in der Latenz (5)..47ms vs. 8.16ms bei 99,99%), was auf eine etwas bessere Latenzkonsistenz für Solidigm in schweren Zufallslesenszenarien hindeutet.
Die Geschwindigkeit des 16K-SPDs fällt deutlich auf 32K IOPS und die Latenzzeit steigt auf 181,4ms (99,99%).51 zu liefern.7K IOPS und ein drastisch verbessertes Latenzprofil (71,8ms bei 99,99%), was den Vorteil von Solidigm für latenzempfindliche zufällige Schreibarbeitslasten unterstreicht.
4K-Zufallslesen und -Schreiben
| Antrieb | IO-Tiefe | BW (MB/s) | Ausländische Ausländer | 990,0% | 990,9% | 99.99% |
|---|---|---|---|---|---|---|
| Dapustor J5060 Lesen | 8T/32Q | 6,941 | 1,694,464 | 10,43 ms | 1.58 ms | 10,79 ms |
| Solidigm P5336 lesen | 8T/32Q | 3,994 | 975,108 | 2.31 ms | 2.41 ms | 20,64 ms |
| Dapustor J5060 Schreiben | 8T/32Q | 131 | 31,923 | 143.65 ms | 1450,75 ms | 179.31 ms |
| Solidigm P5336 Schreiben | 8T/32Q | 197 | 48,030 | 58.5 ms | 64.2 ms | 68.7 ms |



