Wichtige Erkenntnisse
- Flash-first NVMe RAID:PERC13 H975i verlässt SAS/SATA vollständig und basiert auf Broadcom SAS51xx für eine NVMe-native, KI-fähige Architektur.
- Großer Generationssprung:PCIe Gen5 x16 mit bis zu 16 NVMe-Laufwerken pro Controller (32 mit zwei) lieferte 52,5 GB/s und 12,5 M IOPS pro Controller im Test, mit Gewinnen gegenüber PERC12 einschließlich +88% Lesebandbreite,+318% Bandbreite für das Schreiben, +31% 4K lesen IOPS und +466% 4K schreiben IOPS.
- AI-Server passt:Das front-integrierte Design befreit hintere PCIe-Slots für GPUs, verkürzt MCIO-Läufe und ermöglicht eine dedizierte Speicherleitung pro Beschleuniger für einen stabileren, deterministischeren Durchsatz ohne CPU-Overhead.
- Widerstandsfähigkeit unter Stress:Superkondensatorgeschützter Cache und schnellerer Wiederaufbau reduzieren die Zeit auf nur 10 min/TiB und erhalten gleichzeitig eine hohe Leistung während des Wiederaufbaus (bis zu 53,7 GB/s gelesen, 68 GB/s geschrieben, 17,3M/5,33M 4K IOPS).
- End-to-end Sicherheit:Hardware Root of Trust, SPDM-Geräte-Identität und Vollspektrum-Verschlüsselung, die Laufwerke, Flugdaten und den Controller-Cache abdeckt.
Dell PERC12 H965i und PERC13 H975i Spezifikationen
| Merkmal | PERC12 H965i Vorderseite | PERC13 H975i Vorderseite |
|---|---|---|
| RAID-Ebenen | 0, 1, 5, 6, 10, 50, 60 | 0, 1, 5, 6, 10, 50, 60 |
| Nicht-RAID (JBOD) | - Ja, das ist es. | - Ja, das ist es. |
| Typ des Hostbusses | PCIe Gen4 x16 | PCIe Gen5 x16 |
| Seitebandmanagement | I2C, PCIe VDM | I2C, PCIe VDM |
| Einschlüsse pro Hafen | Nicht anwendbar | Nicht anwendbar |
| Prozessor / Chipset | Broadcom RAID-on-Chip, SAS4116W | Broadcom RAID-on-Chip, SAS5132W |
| Energiepaket / Stromrücklage | Batterie | mit einer Leistung von mehr als 10 W |
| Sicherheit der lokalen Schlüsselverwaltung | - Ja, das ist es. | - Ja, das ist es. |
| Sicherer Enterprise-Schlüsselmanager | - Ja, das ist es. | - Ja, das ist es. |
| Warteschlange der Steuerung | 8,192 | 8,192 |
| Nichtflüchtige Cache | - Ja, das ist es. | - Ja, das ist es. |
| Cache-Speicher | 8 GB DDR4 3200 MT/s | Ein integrierter RAID-Cache |
| Cache-Funktionen | Rückschreiben, Vorlesen, Durchschreiben, immer zurückschreiben, keine Vorlesung | Zurückschreiben, durchschreiben, immer zurückschreiben, keine Vorlesung |
| Maximal komplexe virtuelle Festplatten | 64 | 16 |
| Maximal einfache virtuelle Festplatten | 240 | 64 |
| Maximale Festplattengruppen | 64 | 32 |
| Maximaler VD pro Festplattengruppe | 16 | 8 |
| Max. Warme Ersatzteile | 64 | 8 |
| Unterstützte Hot-Swap-Geräte | - Ja, das ist es. | - Ja, das ist es. |
| Auto-Konfigurieren (Primär und einmal ausführen) | - Ja, das ist es. | - Ja, das ist es. |
| Hardware-XOR-Engine | - Ja, das ist es. | - Ja, das ist es. |
| Erweiterung der Online-Kapazität | - Ja, das ist es. | - Ja, das ist es. |
| Dedicated & Global Heat Spare | - Ja, das ist es. | - Ja, das ist es. |
| Unterstützte Laufwerksarten | NVMe Gen3 und Gen4 | NVMe Gen3, Gen4 und Gen5 |
| Größe des VD-Streifen-Elements | 64KB | 64KB |
| Unterstützung von NVMe PCIe | Gen4 | Gen5 |
| Konfiguration Max NVMe-Laufwerke | 8 Antriebe pro Steuerung | 16 Antriebe pro Steuerung |
| Unterstützte Sektorgrößen | 512B, 512e, 4Kn | 512B, 512e, 4Kn |
| Boot-Unterstützung für Speicher | Nur UEFI | Nur UEFI |
Der Frontcontroller PERC13 H975i in Dell PowerEdge-Servern ist für eine nahtlose Integration in die Systemarchitektur konzipiert.Der H975i ist direkt mit dem Front-Antriebs-Backplane verbunden und verbindet sich mit den vorderen MCIO-Anschlüssen auf dem Motherboard über PCIe 5Dieses integrierte Design bewahrt hintere PCIe-Slots für Hochleistungs-GPUs und zusätzliche PCIe-Erweiterung bei, während die Kabellänge erheblich reduziert wird.Dies hilft, die Signalintegrität zu erhalten.Das Ergebnis ist ein sauberes internes Layout und ein besserer Luftstrom für dichte, rechnerintensive Einsätze.
Der H975i implementiert eine umfassende Sicherheitsarchitektur, die sich von der Hardware-Bestätigung auf Siliziumniveau bis zur Vollspektraldatenverschlüsselung von Daten mit SED-Laufwerken erstreckt.,Hardware Root of Trust stellt eine unveränderliche Kette der kryptographischen Verifizierung von der internen Boot-ROM durch jede Firmware-Komponente,Sicherstellung, dass nur authentisierte Dell-zertifizierte Firmware auf dem Controller ausgeführt werden kannDiese hardwarebasierte Sicherheit erstreckt sich über die Implementierung von Sicherheitsprotokoll und Datenmodell (SPDM).wenn jeder Datenverantwortliche ein einzigartiges Geräteidentitätszertifikat enthält, mit dem iDRAC die Echtzeit-Authentifizierung überprüfen kann;Der Controller erweitert den kryptographischen Schutz über die traditionellen Szenarien der Datenruhe hinaus, um den Cache-Speicher einzubeziehen.Es bewahrt Verschlüsselungsschlüssel in sicheren Speicherregionen auf, die für nicht autorisierte Firmware unzugänglich sindInfolgedessen bleiben sensible Daten geschützt, egal ob sie auf Laufwerken liegen oder aktiv im Cache verarbeitet werden.
Der Leistungsschutz im H975i ist eine weitere bedeutende Entwicklung gegenüber herkömmlichen batteriebetriebenen Systemen durch die Integration eines Superkondensators.Der Superkondensator sorgt für eine sofortige Stromversorgung bei unerwarteten Stromausfällen, die eine verschlüsselte und vollständige Cache-Flush in einen nicht flüchtigen Speicher gewährleistet, bei dem die Daten auf unbestimmte Zeit geschützt bleiben.der Superkondensator H975i??s vollendet seinen Transparenten Lernzyklus innerhalb von 5 bis 10 Minuten, ohne dass sich die Leistung während der Kalibrierung verschlechtertDieses Design beseitigt die in Batterielösungen inhärenten Wartungskosten und Abbauprobleme und bietet gleichzeitig eine überlegene Zuverlässigkeit für den Einsatzkritischen Datenschutz.
Integrierte Überwachung und Verwaltung
Der PERC13 RAID-Controller von Dell kann, wie viele von Dell's RAID-Lösungen, auf viele Arten verwaltet und überwacht werden, einschließlich beim Boot der Plattform über die Systeminstallation im BIOS, über die iDRAC Web-GUI,der Leistungsbereich PERC12, und sogar Dell OpenManage UI und CLI.
Verwaltung des iDRAC-Controllers
Wenn Sie die iDRAC-Verwaltungsschnittstelle anzeigen, bietet die Registerkarte Controller eine Übersicht der Speicherhardware des Servers. Neben der BOSS-Karte sehen Sie die doppelten PERC H975i-Controller,vollständig mit Informationen zu Firmware-VersionenDiese Zusammenfassung ermöglicht es Ihnen, die Bereitschaft und Konfiguration der Controller schnell zu überprüfen, ohne dass Sie auf das BIOS zugreifen oder CLI-Tools verwenden müssen.
Der Registerkarte Virtual Disks in iDRAC werden die erstellten Speicherarrays, einschließlich ihrer RAID-Ebene, Größe und Caching-Richtlinie angezeigt.Aus dieser Sicht, können Administratoren bestätigen, dass Volumes online sind, neue virtuelle Festplatten erstellen oder das Aktionsmenü verwenden, um bestehende Konfigurationen anzupassen oder zu löschen.
RAID-Controller-Konfigurationsprogramm
Das obige Bild zeigt ein Beispiel für die Eingabe der PERC H975i Front Configuration Utility System Setup auf der PowerEdge R7715 Plattform.Sie können alle wichtigen RAID Controller-Einstellungen verwalten, einschließlich Konfigurationsmanagement, Controller-Management, Geräte-Management und mehr.Dieses Dienstprogramm bietet eine optimierte Möglichkeit, virtuelle Festplatten einzurichten und Hardware-Komponenten direkt während des Plattform-Boot-Prozesses zu überwachen.
Nach der Auswahl der RAID-Ebene gehen wir zur Auswahl der physischen Festplatten für das Array über. In diesem Beispiel sind alle verfügbaren NVMe-SSDs aufgeführt und als RAID-fähig gekennzeichnet. Wir wählen mehrere 3.2 TiB Dell DC NVMe-Laufwerke aus dem nicht konfigurierten Kapazitätspool. Filter wie Medientyp, Schnittstelle und logische Sektorgröße helfen, die Auswahl einzugrenzen.Wir können weitermachen, indem wir auf OK klicken, um die Festplatte auszuwählen und die virtuelle Festplatte zu erstellen..
Bevor die Erstellung der virtuellen Festplatte abgeschlossen wird, zeigt das System eine Warnung an, die bestätigt, dass alle Daten auf den ausgewählten physischen Festplatten dauerhaft gelöscht werden.Wir markieren das Feld "Bestätigen" und wählen "Ja" aus, um den Vorgang zu autorisieren.. Diese Sicherheitsvorkehrung hilft, versehentlichen Datenverlust während des RAID-Erstellungsprozesses zu verhindern.
Sobald die virtuelle Festplatte erstellt wurde, erscheint sie unter dem Menü Virtual Disk Management. In diesem Beispiel wird unsere neue RAID 5 virtuelle Festplatte mit einer Kapazität von 43.656 TiB und einem Status von Ready aufgeführt.Mit nur wenigen einfachen Schritten, ist der Speicher konfiguriert und einsatzbereit.
Während das PERC BIOS Configuration Utility und die iDRAC-Schnittstelle intuitive Optionen für lokale und Fernverwaltung bieten, bietet Dell auch ein leistungsstarkes Befehlszeilen-Tool namens PERC CLI (perccli2).Dieses Dienstprogramm unterstützt WindowsDell bietet außerdem detaillierte Dokumentation zur Installation und Befehlnutzung fürPERC CLIauf ihrer Support-Website.
Dell PERC13 Leistungsprüfung
Bevor wir in die Leistungstests eintauchten, bereiteten wir unsere Umgebung mit der Dell PowerEdge R7715 Plattform vor, die mit zwei PERC H975i Frontcontrollern konfiguriert war.2 TB Dell NVMe-Laufwerke, die jeweils für bis zu 12.000 MB/s Sequenzlesungen und 5.500 MB/s Sequenzschreibungen mit 128 KiB-Blockgrößen ausgelegt sind.Diese leistungsstarke Basis ermöglicht es uns, die Grenzen des PERC13-Controller-Durchsatzes zu überschreiten und das RAID-Verhalten in großem Maßstab zu bewerten.
- Plattform:Dell PowerEdge R7715
- CPU:AMD EPYC 9655P 96-Kern-Prozessor
- - Ich weiß nicht.768 GB (12 x 64 GB) DDR5-5200 ECC
- Überfallsteuerung:2 x PERC13 H975i
- Aufbewahrung32 x 3,2 TB Dell CD8P NVMe-Laufwerke
- PCIe-Beschleuniger:2 x NVIDIA H100 GPU
NVIDIA Magnum IO GPU Direktspeicher: KI trifft Speicher
Moderne KI-Pipelines sind häufig I/O-gebunden, nicht computergebunden. Datenbatches, Embeddings und Checkpoints müssen schnell genug vom Speicher in den GPU-Speicher übertragen werden, um die Beschleuniger beschäftigt zu halten.NVIDIA Magnum IO GDS (über cuFile) verkürzt den traditionellen SSD → CPU DRAM → GPU Pfad und lässt Daten DMA direkt von NVMe in den GPU-SpeicherDas entfernt den CPU-Bounce-Buffer-Überlast, senkt die Latenz und macht den Durchsatz unter Last vorhersehbarer, was alles zu einer höheren GPU-Auslastung, kürzeren Epochzeiten führt,und schnelleren Kontrollpunkt-Save/Load-Zyklen.
Unser GDSIO-Test ist darauf ausgerichtet, den Datenschutz-zu-GPU-Datenpfad selbst zu messen, indem Blockgrößen und Threadzahlen gemessen werden, um zu zeigen, wie schnell ein PERC13-gestütztes NVMe-Set in den H100-Speicher strömen kann.Mit jedem H975i auf einem PCIe 5.0 x16 Link (theoretisch ~64 GB/s pro Controller, unidirektional), zwei Controller setzen eine Gesamthebene in der Nähe von ~112 GB/s; wo unser Kurvenplateau Ihnen sagt, ob Sie link- oder medienbegrenzt sind.Für Praktiker, lesen Sie die Diagramme als Proxies für reale Workloads: große sequentielle Lesungen von Karte zu Datensatz streamen und Checkpoint wiederherstellen; große sequentielle schreibt Karte zu Checkpoint speichert;Kleine Übertragungen mit Gleichzeitigkeit spiegeln Dateloader-Schuffles und Prefetch widerKurz gesagt, eine starke GDSIO-Skalierung bedeutet weniger GPU-Stände und eine gleichbleibendere Leistung sowohl beim Training als auch beim High-Throughput-Inferenz.
GDSIO-Lese-Sequenzdurchsatz
Beginnend mit sequenziellem Lesen begann der Durchsatz bescheiden bei niedrigeren Blockgrößen und Threadzahlen, beginnend bei etwa 0,3 GiB/s bei 8K-Blöcken mit einem einzigen Thread.Leistung stark zwischen 16K und 512K-Blöcken skaliertDie größten Zuwächse wurden bei den Blockgrößen 1M, 5M und 10M erzielt, wo der Durchsatz dramatisch stieg.mit einer Spitzengeschwindigkeit von 103 GiB/s bei 10M-Blockgröße mit 256 FädenDiese Progression zeigt, dass das PERC13-Array von größeren Blockgrößen und mehrthreadedem Parallelismus profitiert, mit einer optimalen Sättigung um 64-128 Threads, darüber hinaus ein Plateau gewinnt.
GDSIO-Lese-Sequenzdurchsatzdifferential
Bei sequentiellen Lesetests über Blockgrößen von 8K bis 10M hinweg übertraf der PERC13 (H975i) konsequent den PERC12 (H965i),mit einem prozentualen Anstieg, der bei größeren Blockgrößen und höheren Gewinnzahlen dramatisch ansteigt.
Bei kleineren Blockgrößen (8K-16K) waren die Verbesserungen bescheiden (typischerweise zwischen 0-20%), und in einigen Einzelfällen lag der H975i aufgrund der Testvariabilität bei geringen Warteschlangendichten leicht zurück.Nach 32K-64K Blockgrößen, wurde der Vorteil konsistenter, wobei der H975i einen um 30-50% höheren Durchsatz über die meisten Fadenzahlen liefert.
Die signifikantesten Unterschiede wurden bei größeren Blockgrößen (128K bis 10M) beobachtet, bei denen der PERC13-Controller das gesamte Sequenzlesepotenzial des Systems freigeschaltet hat.Der H975i zeigte im Vergleich zum H965i einen Gewinn von 50-120%Bei einer Blockgröße von 1 M mit 8 bis 16 Threads war der Durchsatz beispielsweise über 55 GiB/s höher, was einem Anstieg von ungefähr 90% entspricht. Bei Blockgrößen von 5 M und 10 M überstiegen die Verbesserungen regelmäßig 100%.mit einigen Konfigurationen, die im Vergleich zur vorherigen Generation fast doppelt so gut funktionieren.
Insgesamt etablierte der PERC13 (H975i) eine führende Position bei sequentiellen Leseaufwendungen, insbesondere bei der Skalierung von Blockgröße und Threadzahl.bei 256 K und höher, lieferte der neuere Controller durchweg 50-100%+ höhere Leistung, was deutlich die architektonischen Fortschritte in der neuesten RAID-Plattform von Dell unterstreicht.
GDSIO-Lese-Sequenzlatenz
Da sich der Sequenz-Lese-Durchsatz erhöhte, blieb die Latenz bei kleineren Blockgrößen und niedrigeren Threadzahlen überschaubar.die eine effiziente Handhabung von Messwerten in diesem Bereich aufweistSobald die Blockgrößen und Threadzahlen erhöht wurden, insbesondere bei 5M und 10M mit 64 oder mehr Threads, stieg die Latenzzeit rasch an und erreichte bei einer Blockgröße von 10M mit 256 Threads einen Höchststand von 211,8 ms.Dies verdeutlicht, wie sich unter extremen Arbeitsbelastungen Engpässe bei Steuerung oder Warteschlangen ergeben., obwohl der Durchsatz weiterhin hoch ist.
Die beste Balance zwischen Leistung und Effizienz wurde bei der 1M-Blockgröße mit 8-16 Threads beobachtet, bei der das Array 87,5-93,7 GiB/s Durchsatz beibehielt, während die Latenzzeit zwischen 179-334 μs lag.Diese Zone stellt den richtigen Punkt für die Maximierung der Bandbreite dar, während die Verzögerungen gut unter einer Millisekunde bleiben.
GDSIO schreiben sequentielle Durchsatzleistung
Die Schreibleistung zeigte eine starke frühe Skalierung, da die Blockgrößen zunahmen, wobei der Durchsatz von 1,2 GiB/s bei 8K und 1 Thread auf 13,9 GiB/s um 256K stieg.Das größte Wachstum zeigte sich zwischen 128K und 1M BlockgrößenDie maximale Leistung erreichte die 5M- und 10M-Blockgrößen, die von 8 Threads an 100 bis 101 GiB/s aufrechterhielten.
Die Leistung wurde für diese größeren Blöcke auf 8 bis 64 Threads abgeflacht, was darauf hindeutet, dass die Controller früh in der Skalierungskurve die Sättigung erreichten.,Die Durchsatzstabilität variierte, blieb bei großen 5M- und 10M-Blöcken bei 101 GiB/s stabil, sank aber bei mittleren Blockgrößen, wie 256K, von 61,2 GiB/s bei 32 Threads auf 45.3 GiB/s bei 256 Fäden.
GDSIO Schreiben sequentielle Durchsatzdifferenz
Bei sequenziellen Schreibtests lieferte der PERC13 (H975i) erhebliche Gewinne gegenüber dem PERC12 (H965i), insbesondere wenn die Blockgrößen und Threadzahlen skaliert wurden.Verbesserungen waren bescheiden, in der Regel im Bereich von 0-10%, wobei gelegentliche Prüfgeräusche vernachlässigbare Unterschiede aufweisen.
Ab 64K wurde der Vorteil des H975i deutlicher. Bei 64K-Blockgröße erreichten Verbesserungen 40-70%, wobei der Durchsatz im Vergleich zum H965i um mehr als 12-17 GiB/s anstieg. Bei 128K-256K,Der H975i lieferte bei mittlerer bis hoher Fadenanzahl durchweg 50-70% höhere Durchsatzleistung.
Die dramatischste Leistungslücke zeigte sich bei größeren Blockgrößen (512K bis 10M). Bei 512K erzielte der H975i Gewinne von +31 bis +56 GiB/s, was einer Verbesserung von 60-80% gegenüber dem H965i entspricht.Bei einer Blockgröße von 1 MDer Marktanteil von 5M und 10M-Blockgrößen vergrößerte sich im Vergleich zum PERC 12 um fast das Doppelte.mit Delta von +75 bis +79 GiB/s, was sich in einigen fadenreichen Szenarien in einer Verbesserung von 100% niederschlägt.
Insgesamt zeigte der PERC 13-Controller einen klaren Generationssprung in der sequentiellen Schreibleistung.Die H975i liefert durchweg 50~100% höhere Durchsatzleistung, was seine Überlegenheit gegenüber dem H965i bei schreibintensiven sequentiellen Arbeitsbelastungen feststellt.
GDSIO schreiben sequentielle Latenz
Die Latenzzeit bei sequentiellen Schriften blieb bei kleineren Blockgrößen und niedrigeren Threadzahlen beeindruckend niedrig, oft unter 50 μs durch 128K-Blöcke mit bis zu 8 Threads.Mit zunehmender FadenzahlSo erreichte die Latenz 392 μs bei 512K mit 32 Threads und überstieg 1 ms bei 1M Blockgröße mit 64 Threads.
Bei den größten Blockgrößen und den höchsten Gleichzeitniveaus wurden die Sättigungseffekte deutlicher.
Der effizienteste Betriebspunkt für sequentielle Schreib-Workloads fand bei 1M- oder 5M-Blockgrößen mit 8 bis 16 Threads statt, bei denen der Durchsatz 87,9 bis 101 erreichte.2 GiB/s, während die Latenz innerhalb von 178 μs blieb0,7 ms, die eine hohe, anhaltende Leistung bieten, ohne übermäßige Schreibwartzeinstellungen auszulösen.
MLPerf Storage 2.0 Leistung
Um die reale Leistung in KI-Trainingsumgebungen zu bewerten, nutzten wir die MLPerf Storage 2.0 Testsuite.simulierte Arbeitslasten für Deep LearningEs liefert Einblicke in die Art und Weise, wie Speichersysteme mit Herausforderungen wie Checkpointing und Modellbildung umgehen.
Kontrollpunkte Benchmark
Bei der Ausbildung von Modellen für maschinelles Lernen sind Checkpoints unerlässlich, um den Zustand des Modells regelmäßig zu speichern.ermöglicht eine frühe Einstellung während des Trainings, und ermöglicht es Forschern, sich von verschiedenen Kontrollpunkten für Experimente und Ablationen zu verzweigen.
Der Vergleich der Speicherdauer an Checkpoints ergab, dass Dell PERC13 PERC12 in allen Modellkonfigurationen konsequent übertraf.Während PERC12 10 benötigteDie Leistungsunterschiede waren bei dem 1T-Parametermodell am deutlichsten.wobei PERC13 in etwas mehr als 10 Sekunden abgeschlossen wird, verglichen mit PERC12 ′s 20+ SekundenDies bedeutet für die größten Modelle eine Reduzierung der Speicherzeit um ca. 50%.
Die Daten zeigen, dass PERC13 eine überlegene Bandbreitennutzung aufweist, die durchweg höhere Datenübertragungsraten liefert. PERC13 erreicht einen Durchsatz zwischen 11,46 und 14.81 GB/sBei PERC12 liegt die maximale Leistung bei 9,49 GB/s und bei der größten Konfiguration bei 6,98 GB/s.Der neuere Controller bietet eine stabilere Leistung für verschiedene Modellgrößen, was auf eine bessere Optimierung für den Umgang mit großen, für Checkpoint-Operationen typischen aufeinanderfolgenden Schriften hindeutet.
Spezifikationen für Micron 7600 MAX
Die folgende Tabelle beschreibt die unterstützten Spezifikationen für den Micron 7600 MAX, eine PCIe Gen5 NVMe SSD für gemischten Gebrauch, die für bis zu 3 Laufwerksschreibungen pro Tag (DWPD) geeignet ist.



