AMD hat seine MLPerf Inference v6.0 Benchmark-Ergebnisse veröffentlicht und positioniert die Instinct MI355X GPU als eine hoch skalierbare Inferenzplattform, die Single-Node-, Multi-Node- und heterogene Bereitstellungen unterstützt. Über inkrementelle Leistungssteigerungen hinaus führt die Einreichung neue Workloads ein, demonstriert einen Durchsatz im Cluster-Maßstab von über 1 Million Tokens pro Sekunde und bestätigt eine konsistente Leistungswiederholbarkeit über ein wachsendes Partner-Ökosystem.
CDNA 4 Architektur zielt auf Inferenz mit hoher Kapazität ab
Die Instinct MI355X basiert auf AMDs CDNA 4 Architektur und nutzt ein TSMC Dual-Prozess Chiplet-Design: Compute Dies (XCDs) verwenden einen 3-nm-Prozess, während I/O Dies 6-nm-FinFET-Technologie nutzen. Das Multi-Chiplet-Paket integriert 185 Milliarden Transistoren und unterstützt FP4- und FP6-Datenformate – entscheidend für effiziente Inferenz großer Modelle. Jede GPU ist mit bis zu 288 GB HBM3E-Speicher ausgestattet (liefert 8 TB/s Speicherbandbreite), was die Unterstützung von Modellen mit bis zu 520 Milliarden Parametern auf einem einzigen Gerät ermöglicht. AMD betont, dass diese Kombination aus Rechen- und Speicherdichte die Notwendigkeit einer übermäßigen Modellpartitionierung eliminiert, ein wichtiger Vorteil für Inferenz-Workloads im großen Maßstab.
Die Plattform ist in UBB8-Konfigurationen erhältlich und bietet sowohl luftgekühlte als auch direkt flüssigkeitsgekühlte Optionen, die den unterschiedlichen Anforderungen von Rechenzentren entsprechen. Bemerkenswert ist, dass die MI355X eine TBP (Thermal Design Power) von 1400W mit Flüssigkeitskühlung aufweist und damit eine höhere Leistung als ihr luftgekühlter Gegenpart, die MI350X, liefert.
Multi-Node-Durchsatz übertrifft 1 Million Tokens pro Sekunde
Eine herausragende Leistung der MLPerf v6.0 Runde ist AMDs Cluster-Durchsatz von über 1 Million Tokens pro Sekunde. Mit Instinct MI355X GPUs erreichte AMD diesen Meilenstein mit Llama 2 70B sowohl in Server- als auch in Offline-Szenarien sowie mit GPT-OSS-120B im Offline-Modus.
AMD MLPerf 1 Million Tokens pro Sekunde Grafik
Diese Ergebnisse spiegeln einen wachsenden Branchentrend wider, die Inferenzleistung auf Cluster-Ebene und nicht pro einzelnem Beschleuniger zu bewerten. Der aggregierte Durchsatz und die Time-to-Serve sind zu primären Metriken für die Bestimmung der Produktionsbereitschaft bei KI-Bereitstellungen im großen Maßstab geworden.
AMD demonstrierte auch eine außergewöhnliche Skalierungseffizienz. Für Llama 2 70B erreichte eine 11-Knoten-, 87-GPU-Konfiguration über 1 Million Tokens pro Sekunde in Offline-, Server- und interaktiven Szenarien, mit einer Skalierungseffizienz von 93 % bis 98 %. Für GPT-OSS-120B lieferte ein 12-Knoten-, 94-GPU-Cluster einen ähnlichen Durchsatz mit über 90 % Skalierungseffizienz – was beweist, dass sich die Leistung effektiv überträgt, wenn Bereitstellungen über ein einzelnes System hinaus erweitert werden.
Generationsübergreifende Gewinne und wettbewerbsfähige Single-Node-Leistung
AMD berichtete über signifikante generationsübergreifende Verbesserungen, wobei die Instinct MI355X eine 3,1-mal bessere Leistung bei Llama 2 70B Server im Vergleich zur vorherigen Generation Instinct MI325X lieferte und 100.282 Tokens pro Sekunde erreichte. Diese Verbesserung ergibt sich sowohl aus den architektonischen Verbesserungen der CDNA 4 als auch aus den Softwareoptimierungen von ROCm. Die Offline-Ergebnisse verbesserten sich um das 4,4-fache und die Server-Ergebnisse um das 4,8-fache im Vergleich zu früheren MLPerf-Runden, hauptsächlich aufgrund der FP4-Quantisierung – einer Schlüsselfunktion der MI355X, die einen höheren Durchsatz für KI-Workloads ermöglicht.
AMD Inferenz-Ergebnisse vs. vorherige Generation Grafik
In Single-Node-Vergleichen mit NVIDIA-Plattformen zeigte die MI355X eine starke Wettbewerbsfähigkeit. Bei Llama 2 70B erreichte sie im Offline-Durchsatz die Leistung der NVIDIA B200, erzielte eine nahezu gleiche Leistung im Server-Modus und übertraf sie im interaktiven Modus. Gegenüber der NVIDIA B300 lieferte die MI355X 92 % der Offline-Leistung, 93 % der Server-Leistung und übertraf sie im interaktiven Modus um 4 %. Bemerkenswert ist, dass die MI355X auch eine überlegene Kosteneffizienz bietet und 40 % mehr Tokens pro Dollar liefert als die NVIDIA B200.
Erstmals ermöglichte Modellaktivierung eine erweiterte Abdeckung
MLPerf Inference v6.0 führte mehrere neue Workloads ein, und AMD nutzte diese Runde, um eine schnelle Modellaktivierung zu demonstrieren. GPT-OSS-120B, ein Mixture-of-Experts-Modell, feierte mit der MI355X sein MLPerf-Debüt und erzielte wettbewerbsfähige Ergebnisse im Vergleich zu NVIDIA-Systemen in den Offline- und Server-Szenarien.
AMD reichte auch Ergebnisse für die Text-zu-Video-Generierung Wan-2.2 ein und markierte damit seinen Einstieg in die multimodale und generative Video-Inferenz. Während die offizielle Einreichung auf die Latenz bei einzelnen Streams fokussiert war, entsprachen die Ergebnisse den bestehenden Plattformen. Nach der Einreichung verbesserte sich die Leistung durch weitere Optimierungen, was Raum für weitere Optimierungen bei ausgereifterer Software zeigt.
Diese Ergänzungen unterstreichen AMDs Engagement, über traditionelle LLM-Benchmarks hinauszugehen, um aufkommende KI-Workloads für vielfältige Anwendungsfälle zu unterstützen.
ROCm-Software ermöglicht Skalierung und heterogene Inferenz
AMD führt einen Großteil der Leistung und Skalierbarkeit der MI355X auf seinen ROCm-Software-Stack zurück. Zu den wichtigsten Verbesserungen gehören die optimierte FP4-Ausführung, die verbesserte GPU-zu-GPU-Kommunikation für verteilte Inferenz und die Unterstützung der dynamischen Workload-Verteilung über heterogene Umgebungen hinweg – entscheidend für gemischte GPU-Bereitstellungen.
AMD MLPerf Inferenz-Ergebnisse Instinct MI355X Grafik
Eine bahnbrechende heterogene Einreichung – entwickelt von Dell und MangoBoost – nutzte drei AMD Instinct GPU-Modelle: MI300X, MI325X und MI355X. Diese Konfiguration erreichte 141.521 Tokens pro Sekunde bei Llama 2 70B Server und 151.843 Tokens pro Sekunde bei Llama 2 70B Offline. Bemerkenswert ist, dass sich die MI355X-Plattform im US-Labor von Dell befand, während die MI300X- und MI325X-Systeme in Korea waren – was die Fähigkeit demonstriert, verteilte Systeme über geografische Standorte hinweg zu koordinieren.
Wachstum des Ökosystems und Reproduzierbarkeit
AMD hat sein Partner-Ökosystem in dieser MLPerf-Runde erheblich erweitert, wobei neun Unternehmen Ergebnisse über mehrere Instinct GPU-Generationen hinweg eingereicht haben. Zu den teilnehmenden Anbietern gehören Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro und Red Hat – was die breite Akzeptanz von AMDs Inferenzlösungen in der Branche widerspiegelt.
Die Einreichungen der Partner stimmten eng mit den internen Ergebnissen von AMD überein, typischerweise innerhalb von 4 % und in einigen Fällen innerhalb von 1 %. Diese Konsistenz bestätigt, dass die Leistung der MI355X über OEM- und Cloud-Plattformen hinweg reproduzierbar ist, was das Bereitstellungsrisiko reduziert und das Vertrauen in reale Leistungsergebnisse stärkt.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
E-Mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Geschäftsschwerpunkt:
ICT-Produktvertrieb/Systemintegration & Services/Infrastrukturlösungen
Mit über 20 Jahren Erfahrung im IT-Vertrieb arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.
Technologie nutzen, um eine intelligente Welt zu schaffen"Ihr vertrauenswürdiger ICT-Produkt-Dienstleister!
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
E-Mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Geschäftsschwerpunkt:
ICT-Produktvertrieb/Systemintegration & Services/Infrastrukturlösungen
Mit über 20 Jahren Erfahrung im IT-Vertrieb arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.
Technologie nutzen, um eine intelligente Welt zu schaffen"Ihr vertrauenswürdiger ICT-Produkt-Dienstleister!



