Startseite Rechtssachen

Skalierung von KI-Checkpoints: Die Auswirkungen von SSDs mit hoher Kapazität auf die Modellbildung

Alle Produkte

Gestell-Speicher-Server
(165)

Huawei-Fusions-Server
(31)

Dell Poweredge Server
(59)

H3C-Server
(30)

Datacom-Schalter
(97)

WLAN-Gerät
(21)

Intelligenter drahtloser Router
(10)

Festplattenlaufwerk HDD
(24)

Interne Festplattenlaufwerk SSD
(16)

Grafische Karte Geforce
(27)

INTEL-CPU-Prozessor
(20)

Server-Gedächtnis RAM
(6)

Geüberholter Speicherserver
(6)

SFP-Transceiver-Modul
(4)

Faser-Kanalschalter
(42)

Bescheinigung

China Beijing Qianxing Jietong Technology Co., Ltd. zertifizierungen

Kunden-Berichte

Das Verkaufspersonal von Beijing Qianxing Jietong Technology Co.,Ltd ist sehr Berufs- und geduldig. Sie können Zitate schnell zur Verfügung stellen. Die Qualität und das Verpacken der Produkte ist auch sehr gut. Unsere Zusammenarbeit ist sehr glatt.

—— 》《Festfing DV LLC

Als ich Intel CPU und nach Toshiba SSD dringend suchte, gab Sandy von Beijing Qianxing Jietong Technology Co., Ltd mir viel Hilfe und erhielt mir die Produkte, die ich schnell benötigte. Ich schätze sie wirklich.

—— Kitty Yen

Sandy von Beijing Qianxing Jietong Technology Co.,Ltd ist ein sehr vorsichtiger Verkäufer, der mich an Konfigurationsfehler in der Zeit erinnern kann, als ich einen Server kaufe. Die Ingenieure sind auch sehr Berufs und können den Prüfungsprozeß schnell abschließen.

—— Strelkin Mikhail Vladimirovich

Wir sind sehr zufrieden mit unserer Erfahrung in der Zusammenarbeit mit Beijing Qianxing Jietong. Die Produktqualität ist ausgezeichnet und die Lieferung erfolgt immer pünktlich. Ihr Verkaufsteam ist professionell, geduldig und sehr hilfreich bei all unseren Fragen. Wir schätzen ihre Unterstützung sehr und freuen uns auf eine langfristige Partnerschaft. Sehr empfehlenswert!

—— Ahmad Navid

Qualität: Große Erfahrung mit meinem Lieferanten. Der MikroTik RB3011 war bereits benutzt, aber er war in sehr gutem Zustand und alles funktioniert perfekt.Und alle meine Sorgen wurden schnell gelöst.Ein sehr zuverlässiger Lieferant wird empfohlen.

—— Geran Colesio

Ich bin online Chat Jetzt

Skalierung von KI-Checkpoints: Die Auswirkungen von SSDs mit hoher Kapazität auf die Modellbildung

March 13, 2026

Checkpointing ist für das Training von KI-Modellen unerlässlich, da es Ausfallsicherheit, betriebliche Effizienz und die Möglichkeit gewährleistet, das Training von gespeicherten Zuständen aus fortzusetzen oder zu verfeinern. Die Anforderungen moderner KI-Workloads – die sich durch immer komplexere Modelle und umfangreiche Trainingsdatensätze auszeichnen – stoßen jedoch die Speichersysteme an ihre absoluten Grenzen.

Die Rolle von Checkpoints in KI-Workflows

Checkpointing im KI-Training ist ein wichtiger Prozess, bei dem der vollständige Zustand eines Modells während seines Trainingszyklus periodisch gespeichert wird. Dieser Zustand umfasst die Gewichte und Parameter des Modells, die Zustände des Optimierers, Lernratenpläne und Trainingsmetadaten. Durch die Erstellung eines umfassenden Schnappschusses des Trainingsprozesses in bestimmten Intervallen garantiert Checkpointing die Kontinuität des Trainings und ermöglicht die Wiederherstellung im Falle von Unterbrechungen.

Checkpoints werden typischerweise in iterativ basierten Intervallen erfasst (z. B. alle tausend Trainingsschritte). Das Training moderner großer Sprachmodelle (LLMs), das Wochen oder sogar Monate dauern und massive Rechenressourcen verbrauchen kann, stützt sich stark auf diese Checkpoints als Sicherheitsnetz gegen potenzielle Ausfälle. Beispielsweise kann das Training eines Modells der GPT-4-Klasse Checkpoints von mehreren hundert Gigabyte bis zu mehreren Terabyte generieren, abhängig von der Modellgröße und der Trainingskonfiguration.

Trainingsprozess generiert von DALL-E

Der Hauptzweck von Checkpointing geht über reine Backup-Funktionalität hinaus. Es dient als kritischer Mechanismus für die Trainingsresilienz, der es ermöglicht, das Training im Falle von Systemausfällen, Stromausfällen oder Hardwareproblemen vom letzten gespeicherten Zustand aus fortzusetzen, anstatt von Grund auf neu zu beginnen. Darüber hinaus sind Checkpoints für die Modellanalyse von unschätzbarem Wert: Sie ermöglichen es Forschern, die Entwicklung des Modells in verschiedenen Trainingsphasen zu untersuchen und potenziell zu früheren Zuständen zurückzukehren, wenn eine Leistungsverschlechterung festgestellt wird.

Aus Sicht der Speicherung sind die Schreibmuster während des Checkpointing besonders bemerkenswert. Wenn ein Checkpoint ausgelöst wird, muss das System riesige Datenmengen in einem Burst-Muster schreiben. Dies erzeugt ein deutliches E/A-Profil: Perioden relativ geringer Speicheraktivität während der Trainingsberechnungen, gefolgt von intensiven, bandbreitenstarken Schreibvorgängen während des Checkpointing. Diese Schreibvorgänge sind typischerweise sequenziell und können erheblich von Speichersystemen profitieren, die für bandbreitenstarke sequenzielle Schreibvorgänge optimiert sind.

Unterschiedliche Parallelitätsstrategien im verteilten Training können einen erheblichen Einfluss auf das Checkpointing-Verhalten haben. Diese Strategien beeinflussen, wann das Checkpointing während des Trainings stattfindet und welcher Teil des Modells gespeichert wird. In modernen verteilten Trainingsumgebungen können mehrere GPUs gleichzeitig verschiedene Teile derselben Schicht schreiben, was komplexe E/A-Muster erzeugt. Diese parallele Schreibfähigkeit ist entscheidend für die Effizienz, erfordert jedoch sorgfältige Koordination und robuste Speichersysteme, die gleichzeitige Schreibvorgänge bewältigen und gleichzeitig die Datenkonsistenz aufrechterhalten können. Jede Engstelle in diesem Prozess kann zu weit verbreiteten Trainingsverzögerungen führen.

Langsame Checkpointing kann erhebliche Trainingsengpässe verursachen, da der gesamte Trainingsprozess pausieren muss, während der Checkpoint in den Speicher geschrieben wird. Beispielsweise kann in einer groß angelegten Trainingsumgebung, wenn das Checkpointing alle paar Stunden 30 Minuten dauert, dies zu mehreren Stunden angesammelter Ausfallzeit über den gesamten Trainingszeitraum führen. Dies wirkt sich direkt auf die Trainingseffizienz aus und erhöht die Betriebskosten – insbesondere in Cloud-Umgebungen, in denen Rechenressourcen stundenweise abgerechnet werden.

Schnelleres Checkpointing ermöglicht es Teams auch, Checkpoints häufiger zu erstellen, wodurch der maximal mögliche Datenverlust im Falle von Ausfällen reduziert wird. Dies ermöglicht aggressivere Trainingsansätze und verbesserte experimentelle Iterationszyklen. Darüber hinaus erleichtern schnelle Ladezeiten für Checkpoints schnellere Experimente mit verschiedenen Trainingskonfigurationen und Modellarchitekturen, da Forscher leichter aus früheren Zuständen wiederherstellen können, um alternative Ansätze zu testen.

Die Fähigkeit des Speichersystems, diese Checkpoint-Operationen effizient zu bewältigen, wird zu einem entscheidenden Faktor in der gesamten Trainingsinfrastruktur. Hochleistungsfähige Speicherlösungen, die sowohl die Burst-Schreibmuster des Checkpointing als auch die anhaltenden Lese-/Schreibvorgänge des Trainings bewältigen können, können die Gesamtzeit und die Kosten für das Training großer Sprachmodelle erheblich reduzieren. Daher sind die Leistungseigenschaften des Speicheruntersystems – insbesondere seine Fähigkeit, große sequenzielle Schreibvorgänge zu bewältigen und eine konsistente hohe Bandbreite aufrechtzuerhalten – entscheidende Überlegungen bei der Gestaltung von LLM-Trainingsinfrastrukturen.

Für diesen Bericht haben wir die Leistung von SSDs für KI-Checkpointing bewertet und die Vorteile der neuesten Gen5-SSDs bewertet, wenn die Checkpoint-Geschwindigkeit kritisch ist, im Vergleich zu den größten QLC-SSDs auf dem Markt, die eine große Anzahl von Checkpoints speichern können, wenn dies für das trainierte Modell vorteilhafter ist.

Checkpoint-Leistung – Benchmarking mit DLIO

Um die reale Leistung der Solidigm SSD im KI-Trainingsumfeld zu bewerten, haben wir das Benchmark-Tool Data and Learning Input/Output (DLIO) verwendet. DLIO wurde vom Argonne National Laboratory entwickelt und ist speziell für die Prüfung von E/A-Mustern in Deep-Learning-Workloads konzipiert und liefert Einblicke, wie Speichersysteme Checkpointing, Datenerfassung und Modelltrainingsherausforderungen bewältigen.

Mithilfe von DLIO wollten wir den Durchsatz, die Latenz und die Zuverlässigkeit des Laufwerks unter intensiven Checkpointing-Szenarien messen. Obwohl diese Tests auf dem 61,44 TB D5-P5336 durchgeführt wurden, deuten erste Leistungsdaten darauf hin, dass die 122 TB Version des Solidigm D5-P5336 ein ähnliches Leistungsprofil bietet. Wir haben auch Ergebnisse von einem TLC-basierten D7-PS1010 aufgenommen, um die Vorteile von PCIe Gen5 in diesem Test zu demonstrieren. Wir haben diese beiden Laufwerke ausgewählt, um beide Perspektiven auf Checkpoints zu beleuchten: eine, die sich auf die schnellstmögliche Checkpoint-Zeit konzentriert, und die andere auf die Speicherung der maximalen Anzahl von Checkpoints auf einer einzigen SSD.

Die für diese Arbeit gewählte Plattform war unser Dell PowerEdge R760 mit Ubuntu 22.04.02 LTS. Wir haben die DLIO-Benchmark-Version 2.0 aus der Veröffentlichung vom 13. August 2024 verwendet. Unsere Systemkonfiguration ist unten aufgeführt:

2 x Intel Xeon Gold 6430 (32 Kerne, 2,1 GHz)
16 x 64 GB DDR5-4400
480 GB Dell BOSS SSD
Serielle Kabel Gen5 JBOF
- 7,68 TB Solidigm D7-PS1010
- 61,44 TB Solidigm D5-P5336

Um sicherzustellen, dass unser Benchmarking reale Szenarien widerspiegelt, haben wir unsere Tests auf der LLAMA 3.1 405B Modellarchitektur basiert und das Checkpointing über torch.save() implementiert, um Modellparameter, Optimiererzustände und Schichtzustände zu erfassen. Unsere Einrichtung simulierte ein 8-GPU-System, das eine hybride Parallelitätsstrategie mit 4-Wege-Tensorparallelität und 2-Wege-Pipeline-Parallelverarbeitung implementierte, die über die acht GPUs verteilt war. Diese Konfiguration führte zu Checkpoint-Größen von 1.636 GB, repräsentativ für moderne Anforderungen an das Training großer Sprachmodelle.

Unser Testprozess für die DLIO-Checkpoint-Workload bestand darin, jedes Laufwerk bis zu einem ähnlichen Auslastungsgrad zu füllen. Für das 61,44 TB Solidigm D5-P5336 umfasste jeder Durchlauf 33 Checkpoint-Intervalle mit insgesamt 54 TB. Das kleinere 7,68 TB D7-PS1010 passte bequem drei Checkpoint-Intervalle mit einer Gesamtgröße von 4,9 TB. Ein zusätzlicher Checkpoint hätte in das D7-PS1010 gepasst, obwohl dies die Auslastung etwas höher als gewünscht brachte.

Die DLIO-Checkpoint-Workload lieferte interessante Ergebnisse, als wir die Gen4 QLC-basierte 61,44 TB D5-P5536 mit der Gen5 TLC-basierten 7,68 TB D7-PS1010 verglichen. Während des ersten Durchlaufs, als sich die Laufwerke füllten, beobachteten wir eine größere Leistungslücke zwischen den beiden SSD-Modellen. Das schnellere Gen5 PS1010 schloss jeden Checkpoint im Durchschnitt in 464 Sekunden ab, verglichen mit 623 Sekunden vom Gen4 P5336. In den Durchläufen zwei und drei verringerte sich die Lücke auf 579 und 587 Sekunden für das PS1010 und 676 und 680 Sekunden für das P5336.

Für Unternehmen, die den kleinstmöglichen Abstand zwischen Checkpointing-Intervallen wünschen, bietet das TLC-basierte Gen5 PS1010 einen Vorteil bei der schnellsten Abschlusszeit. Wenn das Ziel darin besteht, viele Checkpoints kostengünstig zu speichern, kann das QLC-basierte Gen4 P5336 dies tun. Wir maßen einen Unterschied bei den durchschnittlichen Checkpoint-Zeiten von weniger als 17 % zwischen beiden Laufwerken während der Durchläufe zwei und drei.

GPUDirect Storage Bandbreite

Während DLIO die Flash-Leistung in einem KI-Workflow zeigt, ist die Workload bis zur Wiederherstellung eines Checkpoints vollständig schreibbasiert. Um ein vollständigeres Bild der Solidigm D7-PS1010 und D5-P5336 in KI-Workloads zu zeichnen, haben wir Lese-Bandbreitenmessungen mit GDSIO aufgenommen.

Wie GPU Direct Storage funktioniert

Traditionell, wenn eine GPU Daten verarbeitet, die auf einem NVMe-Laufwerk gespeichert sind, müssen die Daten zuerst über die CPU und den Systemspeicher reisen, bevor sie die GPU erreichen. Dieser Prozess führt zu Engpässen, da die CPU als Vermittler fungiert, Latenz hinzufügt und wertvolle Systemressourcen verbraucht. GPU Direct Storage eliminiert diese Ineffizienz, indem es der GPU ermöglicht, direkt über den PCIe-Bus auf Daten vom Speichergerät zuzugreifen. Dieser direkte Pfad reduziert den Overhead, der mit der Datenbewegung verbunden ist, und ermöglicht schnellere und effizientere Datentransfers.

KI-Workloads, insbesondere solche, die Deep Learning beinhalten, sind hochgradig datenintensiv. Das Training großer neuronaler Netze erfordert die Verarbeitung von Terabytes an Daten, und jede Verzögerung bei der Datenübertragung kann zu unterausgelasteten GPUs und längeren Trainingszeiten führen. GPU Direct Storage adressiert diese Herausforderung, indem es sicherstellt, dass Daten so schnell wie möglich an die GPU geliefert werden, wodurch Leerlaufzeiten minimiert und die Recheneffizienz maximiert wird.

Ähnlich wie beim DLIO-Test ist das Ziel, die Unterschiede zwischen Hochgeschwindigkeits-Gen5-SSDs und QLC-Laufwerken mit hoher Kapazität besser zu verstehen und zu charakterisieren. Nicht jeder KI-Workflow ist gleich, und jedes Laufwerk bietet je nach Bedarf unterschiedliche Vorteile.

Testkonfigurationsmatrix

Wir haben systematisch jede Kombination der folgenden Parameter mit einer NVIDIA L4 auf unserer Testplattform getestet:

Blockgrößen: 1M, 128K, 64K, 16K, 8K
Thread-Anzahl: 128, 64, 32, 16, 8, 4, 1
Job-Anzahl: 16
Batch-Größen: 16

Unser erster Blick galt der QLC-basierten D5-P5336, die bei einer Übertragungsgröße von 1M und einer IO-Tiefe von 128 maximal 4,2 GiB/s erreichte. Der Effekt von Blockgrößen führte zu einer erheblichen Steigerung der Bandbreite, von 8K auf 1M. Der Vorteil einer erhöhten IO-Tiefe begann bei 32 abzuklingen, wo sich die Workloads zu stabilisieren begannen.

Als nächstes betrachten wir die Gen5 PS-1010, die bei einer Blockgröße von 1M und einer IO-Tiefe von 128 bis zu 6,2 GiB/s skalieren kann. Durchweg übertraf sie die Gen4-basierte P5336, wobei bestimmte Workloads eine erhebliche Steigerung zeigten. Ein bemerkenswerter Verbesserungsbereich war die Blockgröße von 128K, wo bei einer IO-Tiefe von 64 und 128 die PS1010 die doppelte Lesebandbreite der P5336 bot.

Es ist wichtig zu beachten, dass beide SSDs mit der NVIDIA L4 getestet wurden. Während die Gen4 D5-P5336 an ihrer Obergrenze liegt oder nahe daran ist, zeigten High-End-NVIDIA-GPUs wie die H100 eine höhere Leistung mit der D7-PS1010. Die Geschwindigkeit eines Laufwerks ist für einige Kunden der entscheidende Faktor, während andere die Gesamtdichte priorisieren.Solidigmbietet Lösungen fürbeide, mit seinenQLC- und TLC-SSD-Angeboten.

Schlussfolgerung

Da das Ausmaß und die Komplexität des KI-Trainings weiter zunehmen, muss die zugrunde liegende Speicherinfrastruktur nicht nur Schritt halten, sondern auch das Tempo vorgeben. Unsere Tests mit zwei deutlich unterschiedlichen SSDs unterstreichen die Bedeutung der Abstimmung von Speicherlösungen auf spezifische Trainingsprioritäten – sei es die Minimierung der Checkpoint-Latenz oder die Maximierung der Checkpoint-Dichte für kostengünstige Skalierbarkeit.

In unserer Auswertung haben wir die Solidigm D5-P5336 (61,44 TB) und die D7-PS1010 (7,68 TB) unter realistischen KI-Trainingsbedingungen getestet, wobei wir den DLIO-Benchmark und einen umfangreichen hybriden parallelen LLM-Checkpointing-Workflow nutzten. Wir haben Metriken erfasst, die die Checkpoint-Schreibleistung über mehrere Testläufe hinweg widerspiegeln, während sich die Laufwerke füllten, und die Leistungsunterschiede bei den Abschlusszeiten zwischen der Gen4 QLC-basierten D5-P5336 und der Gen5 TLC-basierten D7-PS1010 hervorgehoben.

Während die D7-PS1010 die schnellsten möglichen Checkpoint-Schreibvorgänge lieferte, zeigte die D5-P5336 überzeugende Kosteneffizienz und Kapazitätsvorteile mit nur einem moderaten Leistungsabstrich. Wir untersuchten weiter die Lesebandbreiten von GPU Direct Storage (GDS) mit GDSIO und einer NVIDIA L4 GPU. Unsere Ergebnisse zeigten, dass die Solidigm D5-P5336 bis zu 4,2 GiB/s Lesebandbreite mit einer Übertragungsgröße von 1M lieferte, während die D7-PS1010 eine deutliche Steigerung auf 6,2 GiB/s bot. Die Leistung wäre noch beeindruckender, wenn leistungsstärkere GPUs wie die NVIDIA L40s oder H100/H200 genutzt würden.

Mit Blick auf die Zukunft wird die beispiellose Kapazität der Solidigm D5-P5336 122 TB SSD das KI-Training und die KI-Bereitstellung neu gestalten. Da die Modellgrößen und die Anforderungen an das Checkpointing weiter wachsen, eröffnen diese Laufwerke mit hoher Kapazität neue Ebenen der Effizienz und Flexibilität und ermöglichen Trainingsstrategien, die zuvor unerreichbar waren. Solidigms Führungsposition bei SSD-Lösungen mit hoher Kapazität ermöglicht es Unternehmen, mehr Daten und Checkpoints auf weniger Laufwerken zu speichern und gleichzeitig ihre Infrastrukturen für die nächste Welle der KI-Komplexität zukunftssicher zu machen.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
E-Mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com

Geschäftsschwerpunkt:
ICT-Produktvertrieb/Systemintegration & Services/Infrastrukturlösungen
Mit über 20 Jahren Erfahrung im IT-Vertrieb arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.
"Technologie nutzen, um eine intelligente Welt aufzubauen" Ihr vertrauenswürdiger ICT-Produkt-Dienstleister!

PREV: Die Micron 6550 ION SSD: Gen5-Leistung, Energieeffizienz und hohe Kapazität in einem Laufwerk

NEXT: Flüssigkeitskühlung kommt in Ihr Rechenzentrum: Dell Tech World beleuchtet die Optionen

Kontaktdaten

Beijing Qianxing Jietong Technology Co., Ltd.

Ansprechpartner: Ms. Sandy Yang

Telefon: 13426366826

Skalierung von KI-Checkpoints: Die Auswirkungen von SSDs mit hoher Kapazität auf die Modellbildung

Gestell-Speicher-Server

Huawei-Fusions-Server

Dell Poweredge Server

H3C-Server

Datacom-Schalter

WLAN-Gerät

Intelligenter drahtloser Router

Festplattenlaufwerk HDD

Interne Festplattenlaufwerk SSD

Grafische Karte Geforce

INTEL-CPU-Prozessor

Server-Gedächtnis RAM

Geüberholter Speicherserver

SFP-Transceiver-Modul

Faser-Kanalschalter

Skalierung von KI-Checkpoints: Die Auswirkungen von SSDs mit hoher Kapazität auf die Modellbildung

GPUDirect Storage Bandbreite

Wie GPU Direct Storage funktioniert

Testkonfigurationsmatrix

Schlussfolgerung

Gestell-Speicher-Server

12 Server Lenovo ThinkSystem SR630 der Bucht-1U Rackmount Gestell-Server

Gestell-Speicher-Server-Intels Xeon E-2378G ThinkSystem SR250 V2 4SFF Prozessor

Gestell-Speicher-Server Inspur NF5180M6 1U Intels C621A Gestell-Berg-Server

Huawei-Fusions-Server

Gestell-Server 32 DDR4 DIMMs FusionServer 5288 V6 4U 44 3,5 Zoll-Festplatten

Ultra Netzwerkspeicher-Server mit hoher Dichte 1288H V5 des Huawei-Fusions-Server-1U

Neuer Gestell-Server-hybrider greller Speicher Gen OceanStors 5310 Huawei