Wichtige Erkenntnisse
- Unerhörter Durchsatz in einem einzigen Knoten:Der R7725xd erhielt über 300 GB/s interne Bandbreite und 160 GB/s über NVMe-oF RDMA und konkurrierte damit mit Multi-Node-Speicherclustern innerhalb eines 2U-Chassis.
- Wahre Architektur der 5. Generation, ohne Schalter, ohne Fan-Out:Alle 24 Micron 9550 PRO SSDs erhalten dedizierte x4 PCIe Gen5-Lane direkt vom CPU-Komplex, so dass die Line-Rate-Skalierung ohne Streit möglich ist.
- Betrieben von AMD EPYC 9005 Serie:Dual AMD EPYC 9575F Prozessoren bieten die Spurenzahl, die Speicherbandbreite und die NUMA-Topologie, die für eine nachhaltige Hochkonkurrenz-E/A erforderlich sind.
- Für KI, Analytics und Checkpoint-Heavy Workloads entwickelt:Das System beseitigt die I/O-Flaschenhalse, die moderne GPU-Pipelines behindern, und ermöglicht eine kontinuierliche Datenübertragung mit hoher Bandbreite.
- PEAK:AIO entsperrt volle Parallelismus:PEAK: Der Software-Stack von AIO hält die Warteschlange unter Belastung gesättigt und liefert Unternehmensleistung mit einem überzeugenden Dollar-pro-GB-Verhältnis.
Der Speicherabschnitt von iDRAC 10 bietet einen vollständigen Überblick über alle im R7725xd installierten physischen Festplatten.mit einem visuellen Kreisdiagramm, das die Antriebszustände zeigtIn dieser Konfiguration sind 24 NVMe SSDs aktiv und berichten als bereit, mit zwei zusätzlichen Bootgeräten im System, getrennt von der primären Front-NVMe-Bank.
Da die R7725xd eine direkte NVMe-Architektur ohne herkömmliche RAID-Controller verwendet,Alle Laufwerke werden als nicht-RAID und individuell adressierbar gemeldet und entsprechen dem Design des Systems für große NVMe-Pools und SDS-Plattformen.
Unter der Statussummary wird im Bereich kürzlich protokollierte Speichereignisse die Einfügungsprotokolle für jede PCIe-SSD, organisiert nach Bucht und Slot, aufgeführt.Diese Aufzeichnung bestätigt die ordnungsgemäße Erkennung in allen Antriebsbereichen und hilft, Probleme mit Sitzplätzen zu identifizierenFür große Einsätze sind diese Protokolle nützlich, um die Antriebsbereitstellung zu verfolgen oder zu überprüfen, ob die Kapazität wie erwartet ausgefüllt wurde.
Der letzte Screenshot zeigt die detaillierte NVMe-Geräteansicht innerhalb von iDRAC10. Jedes NVMe-Laufwerk, das im System installiert ist, wird mit seinem Status, seiner Kapazität und seiner Lage aufgelistet.Die Auswahl eines einzelnen Laufwerks eröffnet eine vollständige Aufschlüsselung seiner Eigenschaften.
In diesem Beispiel zeigt die Antriebsinformationsleiste die vollständige Modellfolge, das Geräteprotokoll, den Formfaktor und die ausgehandelten PCIe-Einstellungen an.Die NVMe-Geräte laufen mit 32 GT/s Verbindungsgeschwindigkeit mit einer verhandelten x4 Verbindung, die bestätigt, dass die Laufwerke mit voller Bandbreite auf dem PCIe Gen5-Backplane des Systems betrieben werden.Unterstützung der Administratoren bei der Überwachung der Erwartungen an die Gesundheit und den Lebenszyklus von Fahrzeugen.
Diese granulare Laufwerkberichterstattung ist in NVMe-Konfigurationen mit hoher Dichte wertvoll, bei denen die Linkbreite, die verhandelte Geschwindigkeit und die Mediengesundheit das Verhalten der Arbeitslast und die Speicherleistung direkt beeinflussen.
Insgesamt bietet die iDRAC 10-Schnittstelle eine klare, hardwareorientierte Ansicht der NVMe-Speicherarchitektur von R7725xd, die eine einfache Validierung der Verbindungsgesundheit, des Laufwerksstatus, der Datenübertragung und der Datenübertragung ermöglicht.und Systemintegrität auf einen Blick.
Dell PowerEdge R7725xd Leistung
Vor dem Test wurde unser System mit einer ausgewogenen, aber leistungsstarken Auslastung konfiguriert. Das System ist mit zwei AMD EPYC 9575F-Prozessoren ausgestattet, jeder mit 64 Hochfrequenzkernen,und mit 24 32GB DDR5-DIMMs mit einer Geschwindigkeit von 6400 MT/s verbundenFür die Speicherung ist das Chassis vollständig mit 24 15,36TB Micron 9550 PRO U.2 NVMe SSDs ausgestattet, die jeweils über einen dedizierten PCIe Gen5 x4 Link verbunden sind.und die Micron 9550 PRO-Laufwerke liefern sequentielle Lesegeschwindigkeiten von bis zu 14,000 MB/s und sequentielle Schreibgeschwindigkeiten von bis zu 10.000 MB/s. Das Netzwerk wird durch vier Broadcom BCM57608-Adapter verwaltet, die zusammen acht 200Gb-Ports versorgen,zusammen mit einer BCM57412 OCP NIC mit zwei zusätzlichen 10-Gigabit-Ports.
Prüfsystemspezifikationen
- CPU:2x AMD EPYC 9575F 64-Core Hochfrequenzprozessoren
- Gedächtnis:24x 32GB DDR5 @ 6400MT/s
- Aufbewahrung24x 15,36TB Micron 9550 PRO U.2 Laufwerke (verbundene PCIe Gen5 4x; unterstützt bis zu 128TB Laufwerke heute mit höheren Kapazitäten am Horizont
- Netzwerk:4x Broadcom BCM57608 2x200G NICs, 1x BCM57412 2x10Gb OCP NIC
- Schalter:Dell PowerSwitch Z9664
FIO-Leistungsbenchmark
Um die Speicherleistung des PowerEdge R7725xd zu messen, haben wir branchenübliche Metriken und das FIO-Tool verwendet.
- Zufällige 4K 1M
- Sequentielle 4K 1M
FIO ️ Lokal ️ Bandbreite
Beim Testen des lokalen Zugriffs auf die 24 PCIe Gen5 NVMe-Laufwerke im Dell PowerEdge R7725xd,Das System zeigt genau das, was Sie von einer Plattform erwarten, wo jedes Laufwerk mit CPUs verbunden ist, indem eine vollständige x4-Spur PCIe Gen5-Verbindung verwendet wird. Ohne Netzwerkschicht ist dies der reine, interne Durchsatz von Dell's Gen5-Speicherlayout und der PCIe-Bandbreite der AMD EPYC-Plattform, die ohne Einschränkungen funktioniert.
Sequentielle Lesungen beginnen bei 184 GB/s mit 4K-Blöcken und skalieren schnell, wenn die Blockgröße zunimmt.Dies ist ein starker Hinweis darauf, wie gut das System alle 24 × 4 Gen5-Strecken in eine nachhaltige Lesebandbreite ohne Engpässe in der Steuerungsstufe zusammenfassen kann..
Sequentielle Schriften folgen einer anderen Kurve, bleiben aber fest im erwarteten Bereich.Dies entspricht dem Schreibverhalten der Micron 9550 PRO SSDs und dem Überkopf, der mit hochparallelen NVMe-Schriften über so viele unabhängige Geräte verbunden ist.
Das System erreicht Geschwindigkeiten von fast 300 GB/s bei den kleinsten Blockgrößen, sinkt leicht im mittleren Bereich.und erholt sich dann zu oberen 200s und niedrigen 300s bei größeren BlockgrößenBei 1M erreichen die Zufallslesungen ein Maximum von 318 GB/s, was die Fähigkeit der Plattform zeigt, gemischte Operationen gleichmäßig auf alle 24 Laufwerke zu verteilen.
Zufällige Schriften kommen mit einer niedrigeren Geschwindigkeit ein, was für verteilte Metadaten und Schreibzuweisungsaufgaben in einem breiten NVMe-Set typisch ist.Die Ergebnisse bleiben für den größten Teil des Tests im Bereich von 140 bis 160 GB/s und schrumpfen bei 1 M auf knapp 100 GB/s..
FIO Lokal IOPS
Bei der Untersuchung der IOPS-Seite zeigt der R7725xd eine robuste Leistung bei kleinen Blöcken.mit Anforderungsraten, die bis in die Zehntausende von Millionen reichen, bevor größere Blockgrößen die Arbeitsbelastung in Richtung eines bandbreitenbasierten Profils verschieben.
Bei 4K erreichen Lesungen 44,9 Millionen IOPS und Schreibungen 36,3 Millionen.Demonstration der Fähigkeit des Systems, Arbeitslasten mit hoher Warteschlange effizient auf alle Antriebe zu verteilenDiese Werte schrumpfen natürlich ab, wenn die Blockgrößen zunehmen, aber die Progression bleibt durch die 8K-, 16K- und 32K-Bereiche konsistent.
Bei 16K- und 32K-Blöcken liegen die Lesungen bei 17,4 Millionen und 8,35 Millionen IOPS, wobei die zufälligen Lesungen bei 16,5 Millionen und 8,15 Millionen nahe übereinstimmen.Nachverfolgung niedriger, aber stabil über sowohl sequentielle als auch zufällige Zugriffsmuster.
Wenn wir in 64K und höher wechseln, wechseln die Tests von reinen IOPS zu einem Bandbreiten-gebundenen Szenario. IOPS fallen in den niedrigen Millionenbereich und schließlich in die Hunderttausende.Bei einer Blockgröße von 1 M, lesen IOPS Land um 300K, schreibt bei etwa 174K, und zufällige Operationen in der gleichen Nachbarschaft zu beenden.
Insgesamt zeigen die lokalen IOPS-Ergebnisse eindeutig, dass das System sehr hohe Warteschlangendichte in kleinen Blöcken aufrechterhalten kann.Mit vorhersehbarem Skalieren, wenn die Übertragungen wachsen und die Bandbreite zum dominierenden Faktor wird.
PEAK:AIO: Warum der Dell PowerEdge R7725xd dieser Arbeitsbelastung passt
PEAK:AIO ist für Umgebungen konzipiert, die einen extrem schnellen und langfristigen Zugriff auf große Datensätze erfordern, typischerweise für KI-Ausbildungen, Schlussfolgerungspipelines, Finanzmodellierung und Echtzeit-Analysen.Die Plattform nutzt dichten NVMe-Speicher, ausgewogene PCIe-Bandbreite und eine vorhersehbare Latenzzeit in großem Maßstab.Die zugrunde liegende Hardware muss eine anhaltende Durchsatzleistung liefern und gleichzeitig eine gleichbleibende und wiederholbare Leistung unter gleichzeitigen schweren Belastungen aufweisen..
Hier passt sich der Dell PowerEdge R7725xd natürlich an PEAK:AIO an. Die Systemarchitektur ist so konzipiert, dass die Ressourcen von PCIe Gen5 maximiert werden, wodurch die volle Bandbreite der 24 frontmontierten U-Bänder freigegeben wird.2 NVMe-Bäume direkt an die CPUsDieses Layout verleiht PEAK:AIO das Parallelismus- und Latenzprofil, das es von modernen NVMe-basierten Datenpipelines erwartet.Die Systemkonfiguration unterteilte die NVMe-SSDs in zwei RAID0-Gruppen.
Im getesteten Szenario verwendeten wir zwei Client-Systeme, die mit dem R7725xd verbunden waren, jedes mit Broadcom BCM57608 2x 200G NICs ausgestattet.Die R7725xd wird in eine realistische Hochleistungskonfiguration gedrängt, die das Spiegelbild von PEAK zeigt.Diese Netzwerkbandbreite gab uns die Möglichkeit, das NVMe-Subsystem, die PCIe-Topologie,und die CPU ohne Engpässe an der NIC-Schicht miteinander verbunden.
Das Ergebnis ist eine Plattform, die sich effektiv an PEAK:AIO-Workloads anpasst. Der R7725xd bietet dichte NVMe-Kapazität, PCIe Gen5-Durchsatz, zwei AMD EPYC 9005-Prozessoren für Parallelität,und die Netzwerkkapazität, um die Datenzufuhr von mehreren Clients bei Hunderten von Gigabits pro Client zu unterstützenAlle diese Merkmale sind für die Erreichung der Leistungserwartungen von PEAK:AIO wichtig.
PEAK:AIO ️ NVMe-of RDMA ️ Bandbreite
Bei der Untersuchung der NVMe-oF RDMA-Bandbreitenergebnisse auf dem PowerEdge R7725xd mit PEAK:AIO ist der Gesamttrend genau das, was wir von einem System mit so viel PCIe- und Netzwerkbandbreite erwarten.Mit zunehmender Blockgröße, steigt die Durchsatzleistung rasch an, bis sie sich in der Nähe der praktischen Grenze der Plattform ausgleicht.
Bei den kleinen Blockgrößen beginnt die Leistung im mittleren Bereich von 20 GB / s für Lesen und Schreiben, was normal ist, da 4K- und 8K-Transfers den IOPS-Pfad viel härter drücken als den Durchsatzpfad.Sobald wir in die 16K und 32K Blöcke kommen, öffnet sich die Pipeline. Lesen springt auf rund 154 GB/s bei 32K und steigt weiter auf den 160 GB/s Bereich, wo wir eine Dual-Client-Setup über vier 200 Gb/s Links zu Land erwarten würden.
Zufällige Lese-Performance-Spiegel sind nahezu perfekt aufeinander abgestimmt.Also ist die zufällige Lesebandbreite im Wesentlichen eine Folge der sequentiellen Lesebandbreite., bei einer Geschwindigkeit von etwa 159 bis 161 GB/s von 32K bis 1M. Dies deutet darauf hin, dass der Speicherstapel bei gemischten Zugriffsmustern keinen Engpass hat,und die PCIe-Topologie von R7725xd® verteilt die Last gleichmäßig auf die 24 NVMe-Laufwerke der Generation 5.
Die Schreibleistung verfolgt eine ähnliche Kurve, obwohl sie etwas niedriger liegt als die Leseleistung.Abnehmen auf etwa 117 GB/s bei 128K, aber wiederherstellen, wenn die Blockgröße steigt. Zufällige Schreibvorgänge verhalten sich anders und flatten sich näher an 110-117 GB/s, was für Arbeitslasten mit gemischten Warteschlangen normal ist, die zusätzliche Aufwendungen mit sich bringen.
Die wichtigste Erkenntnis aus diesem Abschnitt ist, dass der R7725xd keine Probleme hat, eine extrem hohe Bandbreite über NVMe-oF aufrechtzuerhalten, selbst wenn mehrere Clients das System an seine Grenzen bringen.Sobald die Blockgrößen 32K oder höher erreichen, saturiert der Server seine verfügbare Netzwerk- und Speicherbandbreite konsequent.Diese Ergebnisse sind eine starke Validierung der Skalierbarkeit der Plattform unter realen Bedingungen..
PEAK AIO NVMe-of RDMA IOPS
Auf der IOPS-Seite zeigt der PowerEdge R7725xd eine starke Leistung bei kleinen Blöcken, obwohl wir zunächst niedrigere Zahlen beobachteten als erwartet;Dieses Problem wird voraussichtlich in Zukunft durch eine verbesserte Netzwerktreiberunterstützung behoben.Auch wenn dies in Betracht kommt, erscheint der allgemeine Skalierungstrend genau so, wie sich NVMe-of RDMA typischerweise verhält, wenn die Blockgröße zunimmt.
Bei der kleinsten Blockgröße kann das System mehr als 6 Millionen IOPS über sequentielle und zufällige Arbeitslasten liefern.und zufällig schreiben alle sitzen in ungefähr dem gleichen Bereich bei 4K und 8K, was darauf hindeutet, dass die Front-End-Clients, die PCIe-Infrastruktur und die NVMe-Laufwerke selbst keine Probleme haben, mit der Anforderungsrate Schritt zu halten.
Wenn die Blockgrößen wachsen, beginnt der erwartete Rückgang der IOPS. bei 32K, liest Land um 4,7 Millionen IOPS, während schreibt Spur etwas hinter bei etwa 4,4 Millionen.,Dies entspricht den zusätzlichen Warteschlangen und CPU-Overhead, die durch Mixed-Access-Muster eingeführt werden.
Wenn wir in die großen Blöcke gehen, verringert sich IOPS weiterhin linear, bis wir 256K und 512K Transfers erreichen, wird der Durchsatz zur dominierenden Metrik.und IOPS fällt natürlich in die Mitte der HunderttausendeBei einer Blockgröße von 1 M konvergieren alle Workloads auf 140K-153K IOPS, entsprechend den Bandbreitenzahlen, die wir im vorherigen Abschnitt gesehen haben.
GPUDirect Speicherleistung
Einer der Tests, die wir mit dem R7725xd durchgeführt haben, war der Magnum IO GPUDirect Storage (GDS) Test.GDS ist eine von NVIDIA entwickelte Funktion, mit der GPUs die CPU umgehen können, wenn sie auf Daten zugreifen, die auf NVMe-Laufwerken oder anderen Hochgeschwindigkeitsspeichergeräten gespeichert sind.Anstatt Daten durch die CPU und den Systemspeicher zu leiten, ermöglicht GDS eine direkte Kommunikation zwischen der GPU und dem Speichergerät, wodurch die Latenzzeit erheblich reduziert und der Datendurchsatz verbessert wird.
Wie GPUDirect-Speicher funktioniert
Wenn eine GPU Daten verarbeitet, die auf einem NVMe-Laufwerk gespeichert sind, müssen die Daten traditionell zuerst durch die CPU und den Systemspeicher reisen, bevor sie die GPU erreichen.Da die CPU ein Vermittler wirdGPUDirect Storage beseitigt diese Ineffizienz, indem es der GPU ermöglicht, über den PCIe-Bus direkt auf Daten vom Speichergerät zuzugreifen.Dieser direkte Pfad reduziert die Datenbewegung, was eine schnellere und effizientere Datenübertragung ermöglicht.
KI-Workloads, insbesondere solche, die mit Deep Learning verbunden sind, sind sehr datenintensiv.und jede Verzögerung bei der Datenübertragung kann zu unterbenutzten GPUs und längeren Trainingszeiten führen. GPUDirect Storage löst diese Herausforderung, indem sichergestellt wird, dass Daten so schnell wie möglich an die GPU geliefert werden, die Leerlaufzeit minimiert und die Rechenleistung maximiert wird.
Darüber hinaus ist GDS besonders für Workloads nützlich, bei denen große Datensätze wie Videoverarbeitung, natürliche Sprachenverarbeitung oder Echtzeit-Inferenz gestreamt werden müssen.Durch die Verringerung der Abhängigkeit von der CPU, beschleunigt GDS die Datenbewegung und befreit CPU-Ressourcen für andere Aufgaben, wodurch die Gesamtleistung des Systems weiter verbessert wird.
Neben der Rohbandbreite liefert GPUDirect mit NVMe-oF (TCP/RDMA) auch ultra-niedrige Latenz I/O. Dies stellt sicher, dass die GPUs nie nach Daten hungern, was das System ideal für Echtzeit-KI-Inferenz macht,Analysepipelines, und Videowiederholung.
GDSIO-Lese nachfolgend
Bei der Prüfung von PEAK:AIO mit einem Client, der GDSIO verwendet, zeigt der Leseendurchsatz ein klares Skalierungsmuster, da sowohl die Blockgröße als auch die Threadzahl zunehmen.Dieser einzelne Client war über zwei 400G-Verbindungen verbunden, wodurch die Gesamtleistung auf 90 GB/s begrenzt wird.
Bei kleinsten Blockgrößen und geringen Threadzahlen ist die Leistung bescheiden, mit 4K-Lesungen ab ca. 189 MiB/s bei einem einzelnen Thread.Das System reagiert sofort., drücken 691 MiB/s bei vier Threads und brechen in den Multi-GiB/s Bereich ein, wenn wir in größere Blöcke treten.
Die mittleren Blockgrößen zeigen die stärkste Empfindlichkeit für die Threadzahl. Bei 32K steigt der Durchsatz von 1,3 GiB/s bei einem einzelnen Thread auf fast 20 GiB/s bei 64 Threads.mit nur einem leichten Verjüngung darüber hinausEin ähnliches Muster tritt bei 64K und 128K auf, wobei das System bei geringer Parallelität von niedrigen einstelligen GiB/s auf über 30 GiB/s übergeht, wenn die Arbeitsbelastung wächst.
Sobald wir die größeren Blockgrößen erreicht haben, beginnt sich der Durchsatz zu stabilisieren, wenn sich das System seiner Leistungsgrenze für einen einzelnen Client nähert.Leistungssteigerung von 11 GiB/s bei einem Faden auf etwa 88 GiB/s bei hoher FadenzahlDie 5 MiB- und 10 MiB-Transfers zeigen das gleiche Plateau, das bei 89 ‰ 90 GiB/s liegt, unabhängig davon, ob der Test mit 64, 128 oder 256 Threads ausgeführt wird.
GDSIO schreiben sequenziell
Auf der Schreibseite folgt das Skalierungsverhalten einem ähnlichen Muster wie die Lesungen, jedoch mit etwas niedrigerer Leistung in den meisten Blockgrößen, was bei sequentiellen Schreib-Workloads erwartet wird.Bei den kleinsten BlockgrößenBei vier Threads wächst der Durchsatz auf etwas mehr als 619 MiB/s, bevor er bei acht Threads über 1 GiB/s steigt.
Mittlere Blockgrößen zeigen stärkere Gewinne, wenn die Threadzahl steigt. Bei 32K beginnt der Durchsatz bei knapp 1 GiB/s und wächst bei höheren Threadniveaus auf über 21 GiB/s.Die 64K- und 128K-Bereiche setzen den Trend fort, die sich von niedrigen einstelligen GiB/s auf mittlere 30 GiB/s und 50 GiB/s bewegt, wenn die Arbeitsbelastung paralleler wird.
Größere Übertragungen erfolgen, wenn sich das System in seine natürliche Schreibdurchsatzobergrenze setzt. Bei 1 MiB steigt die Leistung von 13,3 GiB/s bei einem einzelnen Thread auf knapp 90 GiB/s bei hohen Threadzahlen.Die 5 MiB- und 10 MiB-Tests folgen einem ähnlichen Muster, mit Ergebnissen von 90 GiB/s, unabhängig davon, ob das System mit 64, 128 oder 256 Threads läuft.
Neudefinition der Leistung in der Generation 5
Sandy Yang, Leiterin der globalen Strategie
WhatsApp / WeChat: +86 13426366826
E-Mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com Die Daten werden auf der Website der chinesischen Regierung gespeichert.
Geschäftsfokus:
Vertrieb von IKT-Produkten/Systemintegration und Dienstleistungen/Infrastrukturlösungen
Mit mehr als 20 Jahren Erfahrung im IT-Vertrieb arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.
¢Technologie nutzen, um eine intelligente Welt aufzubauen¡Ihr vertrauenswürdiger Dienstleister für IKT-Produkte!



