Startseite Rechtssachen

AMD Instinct MI355X erzielt MLPerf Inference v6.0-Gewinne mit über 1 Million Tokens pro Sekunde und unterstützt skalierbares ROC

Alle Produkte

Gestell-Speicher-Server
(165)

Huawei-Fusions-Server
(31)

Dell Poweredge Server
(59)

H3C-Server
(30)

Datacom-Schalter
(97)

WLAN-Gerät
(21)

Intelligenter drahtloser Router
(10)

Festplattenlaufwerk HDD
(24)

Interne Festplattenlaufwerk SSD
(16)

Grafische Karte Geforce
(27)

INTEL-CPU-Prozessor
(20)

Server-Gedächtnis RAM
(6)

Geüberholter Speicherserver
(6)

SFP-Transceiver-Modul
(4)

Faser-Kanalschalter
(42)

Bescheinigung

China Beijing Qianxing Jietong Technology Co., Ltd. zertifizierungen

Kunden-Berichte

Das Verkaufspersonal von Beijing Qianxing Jietong Technology Co.,Ltd ist sehr Berufs- und geduldig. Sie können Zitate schnell zur Verfügung stellen. Die Qualität und das Verpacken der Produkte ist auch sehr gut. Unsere Zusammenarbeit ist sehr glatt.

—— 》《Festfing DV LLC

Als ich Intel CPU und nach Toshiba SSD dringend suchte, gab Sandy von Beijing Qianxing Jietong Technology Co., Ltd mir viel Hilfe und erhielt mir die Produkte, die ich schnell benötigte. Ich schätze sie wirklich.

—— Kitty Yen

Sandy von Beijing Qianxing Jietong Technology Co.,Ltd ist ein sehr vorsichtiger Verkäufer, der mich an Konfigurationsfehler in der Zeit erinnern kann, als ich einen Server kaufe. Die Ingenieure sind auch sehr Berufs und können den Prüfungsprozeß schnell abschließen.

—— Strelkin Mikhail Vladimirovich

Wir sind sehr zufrieden mit unserer Erfahrung in der Zusammenarbeit mit Beijing Qianxing Jietong. Die Produktqualität ist ausgezeichnet und die Lieferung erfolgt immer pünktlich. Ihr Verkaufsteam ist professionell, geduldig und sehr hilfreich bei all unseren Fragen. Wir schätzen ihre Unterstützung sehr und freuen uns auf eine langfristige Partnerschaft. Sehr empfehlenswert!

—— Ahmad Navid

Qualität: Große Erfahrung mit meinem Lieferanten. Der MikroTik RB3011 war bereits benutzt, aber er war in sehr gutem Zustand und alles funktioniert perfekt.Und alle meine Sorgen wurden schnell gelöst.Ein sehr zuverlässiger Lieferant wird empfohlen.

—— Geran Colesio

Ich bin online Chat Jetzt

AMD Instinct MI355X erzielt MLPerf Inference v6.0-Gewinne mit über 1 Million Tokens pro Sekunde und unterstützt skalierbares ROC

April 15, 2026

AMD hat seine MLPerf Inference v6.0 Benchmark-Ergebnisse veröffentlicht und positioniert die Instinct MI355X GPU als eine hoch skalierbare Inferenzplattform, die Single-Node-, Multi-Node- und heterogene Bereitstellungen unterstützt. Über inkrementelle Leistungssteigerungen hinaus führt die Einreichung neue Workloads ein, demonstriert einen Durchsatz im Cluster-Maßstab von über 1 Million Tokens pro Sekunde und bestätigt eine konsistente Leistungswiederholbarkeit über ein wachsendes Partner-Ökosystem.

CDNA 4 Architektur zielt auf Inferenz mit hoher Kapazität ab

Die Instinct MI355X basiert auf AMDs CDNA 4 Architektur und nutzt ein TSMC Dual-Prozess Chiplet-Design: Compute Dies (XCDs) verwenden einen 3-nm-Prozess, während I/O Dies 6-nm-FinFET-Technologie nutzen. Das Multi-Chiplet-Paket integriert 185 Milliarden Transistoren und unterstützt FP4- und FP6-Datenformate – entscheidend für effiziente Inferenz großer Modelle. Jede GPU ist mit bis zu 288 GB HBM3E-Speicher ausgestattet (liefert 8 TB/s Speicherbandbreite), was die Unterstützung von Modellen mit bis zu 520 Milliarden Parametern auf einem einzigen Gerät ermöglicht. AMD betont, dass diese Kombination aus Rechen- und Speicherdichte die Notwendigkeit einer übermäßigen Modellpartitionierung eliminiert, ein wichtiger Vorteil für Inferenz-Workloads im großen Maßstab.

Die Plattform ist in UBB8-Konfigurationen erhältlich und bietet sowohl luftgekühlte als auch direkt flüssigkeitsgekühlte Optionen, die den unterschiedlichen Anforderungen von Rechenzentren entsprechen. Bemerkenswert ist, dass die MI355X eine TBP (Thermal Design Power) von 1400W mit Flüssigkeitskühlung aufweist und damit eine höhere Leistung als ihr luftgekühlter Gegenpart, die MI350X, liefert.

Multi-Node-Durchsatz übertrifft 1 Million Tokens pro Sekunde

Eine herausragende Leistung der MLPerf v6.0 Runde ist AMDs Cluster-Durchsatz von über 1 Million Tokens pro Sekunde. Mit Instinct MI355X GPUs erreichte AMD diesen Meilenstein mit Llama 2 70B sowohl in Server- als auch in Offline-Szenarien sowie mit GPT-OSS-120B im Offline-Modus.

AMD MLPerf 1 Million Tokens pro Sekunde Grafik

Diese Ergebnisse spiegeln einen wachsenden Branchentrend wider, die Inferenzleistung auf Cluster-Ebene und nicht pro einzelnem Beschleuniger zu bewerten. Der aggregierte Durchsatz und die Time-to-Serve sind zu primären Metriken für die Bestimmung der Produktionsbereitschaft bei KI-Bereitstellungen im großen Maßstab geworden.

AMD demonstrierte auch eine außergewöhnliche Skalierungseffizienz. Für Llama 2 70B erreichte eine 11-Knoten-, 87-GPU-Konfiguration über 1 Million Tokens pro Sekunde in Offline-, Server- und interaktiven Szenarien, mit einer Skalierungseffizienz von 93 % bis 98 %. Für GPT-OSS-120B lieferte ein 12-Knoten-, 94-GPU-Cluster einen ähnlichen Durchsatz mit über 90 % Skalierungseffizienz – was beweist, dass sich die Leistung effektiv überträgt, wenn Bereitstellungen über ein einzelnes System hinaus erweitert werden.

Generationsübergreifende Gewinne und wettbewerbsfähige Single-Node-Leistung

AMD berichtete über signifikante generationsübergreifende Verbesserungen, wobei die Instinct MI355X eine 3,1-mal bessere Leistung bei Llama 2 70B Server im Vergleich zur vorherigen Generation Instinct MI325X lieferte und 100.282 Tokens pro Sekunde erreichte. Diese Verbesserung ergibt sich sowohl aus den architektonischen Verbesserungen der CDNA 4 als auch aus den Softwareoptimierungen von ROCm. Die Offline-Ergebnisse verbesserten sich um das 4,4-fache und die Server-Ergebnisse um das 4,8-fache im Vergleich zu früheren MLPerf-Runden, hauptsächlich aufgrund der FP4-Quantisierung – einer Schlüsselfunktion der MI355X, die einen höheren Durchsatz für KI-Workloads ermöglicht.

AMD Inferenz-Ergebnisse vs. vorherige Generation Grafik

In Single-Node-Vergleichen mit NVIDIA-Plattformen zeigte die MI355X eine starke Wettbewerbsfähigkeit. Bei Llama 2 70B erreichte sie im Offline-Durchsatz die Leistung der NVIDIA B200, erzielte eine nahezu gleiche Leistung im Server-Modus und übertraf sie im interaktiven Modus. Gegenüber der NVIDIA B300 lieferte die MI355X 92 % der Offline-Leistung, 93 % der Server-Leistung und übertraf sie im interaktiven Modus um 4 %. Bemerkenswert ist, dass die MI355X auch eine überlegene Kosteneffizienz bietet und 40 % mehr Tokens pro Dollar liefert als die NVIDIA B200.

Erstmals ermöglichte Modellaktivierung eine erweiterte Abdeckung

MLPerf Inference v6.0 führte mehrere neue Workloads ein, und AMD nutzte diese Runde, um eine schnelle Modellaktivierung zu demonstrieren. GPT-OSS-120B, ein Mixture-of-Experts-Modell, feierte mit der MI355X sein MLPerf-Debüt und erzielte wettbewerbsfähige Ergebnisse im Vergleich zu NVIDIA-Systemen in den Offline- und Server-Szenarien.

AMD reichte auch Ergebnisse für die Text-zu-Video-Generierung Wan-2.2 ein und markierte damit seinen Einstieg in die multimodale und generative Video-Inferenz. Während die offizielle Einreichung auf die Latenz bei einzelnen Streams fokussiert war, entsprachen die Ergebnisse den bestehenden Plattformen. Nach der Einreichung verbesserte sich die Leistung durch weitere Optimierungen, was Raum für weitere Optimierungen bei ausgereifterer Software zeigt.

Diese Ergänzungen unterstreichen AMDs Engagement, über traditionelle LLM-Benchmarks hinauszugehen, um aufkommende KI-Workloads für vielfältige Anwendungsfälle zu unterstützen.

ROCm-Software ermöglicht Skalierung und heterogene Inferenz

AMD führt einen Großteil der Leistung und Skalierbarkeit der MI355X auf seinen ROCm-Software-Stack zurück. Zu den wichtigsten Verbesserungen gehören die optimierte FP4-Ausführung, die verbesserte GPU-zu-GPU-Kommunikation für verteilte Inferenz und die Unterstützung der dynamischen Workload-Verteilung über heterogene Umgebungen hinweg – entscheidend für gemischte GPU-Bereitstellungen.

AMD MLPerf Inferenz-Ergebnisse Instinct MI355X Grafik

Eine bahnbrechende heterogene Einreichung – entwickelt von Dell und MangoBoost – nutzte drei AMD Instinct GPU-Modelle: MI300X, MI325X und MI355X. Diese Konfiguration erreichte 141.521 Tokens pro Sekunde bei Llama 2 70B Server und 151.843 Tokens pro Sekunde bei Llama 2 70B Offline. Bemerkenswert ist, dass sich die MI355X-Plattform im US-Labor von Dell befand, während die MI300X- und MI325X-Systeme in Korea waren – was die Fähigkeit demonstriert, verteilte Systeme über geografische Standorte hinweg zu koordinieren.

Wachstum des Ökosystems und Reproduzierbarkeit

AMD hat sein Partner-Ökosystem in dieser MLPerf-Runde erheblich erweitert, wobei neun Unternehmen Ergebnisse über mehrere Instinct GPU-Generationen hinweg eingereicht haben. Zu den teilnehmenden Anbietern gehören Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro und Red Hat – was die breite Akzeptanz von AMDs Inferenzlösungen in der Branche widerspiegelt.

Die Einreichungen der Partner stimmten eng mit den internen Ergebnissen von AMD überein, typischerweise innerhalb von 4 % und in einigen Fällen innerhalb von 1 %. Diese Konsistenz bestätigt, dass die Leistung der MI355X über OEM- und Cloud-Plattformen hinweg reproduzierbar ist, was das Bereitstellungsrisiko reduziert und das Vertrauen in reale Leistungsergebnisse stärkt.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
E-Mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Geschäftsschwerpunkt:
ICT-Produktvertrieb/Systemintegration & Services/Infrastrukturlösungen
Mit über 20 Jahren Erfahrung im IT-Vertrieb arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.
Technologie nutzen, um eine intelligente Welt zu schaffen"Ihr vertrauenswürdiger ICT-Produkt-Dienstleister!

PREV: VDURA stellt RDMA und Kontext-Aware-Tiering für KI-Datenplattformen auf der GTC 2026 vor

NEXT: Supermicro stellt drei neue Edge-KI-Systeme auf Basis von AMD EPYC 4005 vor

Kontaktdaten

Beijing Qianxing Jietong Technology Co., Ltd.

Ansprechpartner: Ms. Sandy Yang

Telefon: 13426366826

AMD Instinct MI355X erzielt MLPerf Inference v6.0-Gewinne mit über 1 Million Tokens pro Sekunde und unterstützt skalierbares ROC

Gestell-Speicher-Server

Huawei-Fusions-Server

Dell Poweredge Server

H3C-Server

Datacom-Schalter

WLAN-Gerät

Intelligenter drahtloser Router

Festplattenlaufwerk HDD

Interne Festplattenlaufwerk SSD

Grafische Karte Geforce

INTEL-CPU-Prozessor

Server-Gedächtnis RAM

Geüberholter Speicherserver

SFP-Transceiver-Modul

Faser-Kanalschalter

AMD Instinct MI355X erzielt MLPerf Inference v6.0-Gewinne mit über 1 Million Tokens pro Sekunde und unterstützt skalierbares ROC

CDNA 4 Architektur zielt auf Inferenz mit hoher Kapazität ab

Multi-Node-Durchsatz übertrifft 1 Million Tokens pro Sekunde

Generationsübergreifende Gewinne und wettbewerbsfähige Single-Node-Leistung

Erstmals ermöglichte Modellaktivierung eine erweiterte Abdeckung

ROCm-Software ermöglicht Skalierung und heterogene Inferenz

Wachstum des Ökosystems und Reproduzierbarkeit

Gestell-Speicher-Server

12 Server Lenovo ThinkSystem SR630 der Bucht-1U Rackmount Gestell-Server

Gestell-Speicher-Server-Intels Xeon E-2378G ThinkSystem SR250 V2 4SFF Prozessor

Gestell-Speicher-Server Inspur NF5180M6 1U Intels C621A Gestell-Berg-Server

Huawei-Fusions-Server

Gestell-Server 32 DDR4 DIMMs FusionServer 5288 V6 4U 44 3,5 Zoll-Festplatten

Ultra Netzwerkspeicher-Server mit hoher Dichte 1288H V5 des Huawei-Fusions-Server-1U

Neuer Gestell-Server-hybrider greller Speicher Gen OceanStors 5310 Huawei