Auf der Google Cloud Next stellte Google seine achten Generation von KI-Beschleunigern vor: den TPU v8t Sunfish für das Training und den TPU v8i Zebrafish für die Inferenz, zusammen mit dem neuen Virgo Data Center Fabric.Für die Zeit der agentenartigen KI, sind diese Chips für eine große Mischung von Experten (MoE) -Modell-Ausbildung und Low-Latency-Token optimiert, die mit kosteneffizienten Preisen dienen.V8t und V8i unterscheiden sich im Gedächtnis, SRAM, Topologie und Hardware-Spezialisierung.
Ein v8t Superpod unterstützt 9.600 Chips mit 2 PB HBM und liefert 121 EFLOPS FP4-Rechenleistung, fast das Dreifache der Leistung der vorherigen Ironwood-Generation.152 Chips mit 288 GB HBM und 384 MB On-Chip SRAMDas Virgo-Gewebe verbindet über 134.000 V8t-Chips,Bereitstellung einer nicht blockierenden Bandbreite von 47 Pb/s mit 4x höherem Durchsatz pro Beschleuniger und 40% geringerer Latenzzeit.
Grundlegende TPU-Architektur vs. GPU
TPUs sind benutzerdefinierte ASICs, die sich durch große Matrix-Multiply-Einheiten (MXUs), softwareverwaltete SRAM und vorschnelle Kompilierung auszeichnen.TPUs verfügen über einen deterministischen Datenfluss mit systolischen Arrays, wodurch Cache-Jitter und Warp-Scheduling-Overhead für eine höhere FLOPS-Auslastung bei dichten Matrix-Workloads beseitigt werden.unregelmäßige Spärlichkeit und komplexe Graphenetzwerke, bietet aber auch eine engere Software-Ökosystemunterstützung, die von JAX und XLA dominiert wird.
Der strukturelle Unterschied in der Sparsity-Unterstützung unterscheidet TPUs und GPUs deutlich.Die TPU-Systolen-Arrays arbeiten in starrem Lockstep.AWS Trainium2 setzt mit speziellen Spärdekompressoren einen Mittelweg ein, um den Array-Durchsatz zu halten.
TPUs integrieren SparseCores, um unregelmäßige Sammel-Scatter-Aufgaben für das Einbetten von Tabellen und MoE-Routing zu bewältigen.die Empfehlungs-Workloads und Experten-Token-Versendungen abdecken, die von Standard-MXUs nicht effizient verarbeitet werden können.
TPU v8t Sonnenfisch: Trainingsaccelerator
Der v8t-Training-Chip verfügt über 216 GB HBM3e-Speicher und 128 MB SRAM.Es behält eine 3D-Torus-Verbindung und aktualisiert 19.2 Tb/s ICI-Bandbreite, ideal für ringbasierte kollektive Kommunikation bei groß angelegter Ausbildung.
Erbschaftliche SparseCores optimieren die unregelmäßige Datenübertragung von MoE. Zwei kritische Upgrades lösen große Engpässe:TPUDirect RDMA und TPUDirect Storage umgehen die Host-CPU, um direkten Zugang zum TPU-Speicher zu ermöglichenZusätzlich nutzt v8t die ARM-basierten Axion-CPUs von Google als Hostprozessoren.Isolierung von Host-Jitter und Verbesserung der Stabilität der Vorverarbeitung für synchronisiertes Multi-Chip-Training.
TPU v8i: Zebrafisch: Inferenzbeschleuniger
V8i ist für Speicher-Bandbreite-gebundene Inferenz-Workloads entwickelt und priorisiert die Generierung von Token mit geringer Latenz.Es verfügt über 384 MB SRAM ∙ das Dreifache von Ironwood ∙ zum Cache-KV-Cache auf dem Chip und zur Verringerung des wiederholten HBM-Lesens. Mit zwei TensorCores und 288 GB HBM3e erreicht es 10,1 PFLOPS FP4-Rechenleistung, überlappende Kurz-Batch-Inferenz-Aufgaben für eine höhere nachhaltige Auslastung.
SparseCores wird durch die spezielle Collectives Acceleration Engine (CAE) ersetzt, die die Synchronisierungsverzögerung auf dem Chip um bis zu 5x reduziert und häufige kollektive Operationen in kleinen Chargen optimiert.Der v8i verlässt den 3D-Torus für die auf Dragonfly basierende Boardfly-Topologie, wodurch die maximale Chip-zu-Chip-Hops von 16 auf 7 verringert und die MoE All-to-All-Latency um 50% gesenkt wird.
Jungfrau und Jupiter Stoffhierarchie
Virgo dient als Skalierungswerkzeug innerhalb des Rechenzentrums und verwendet eine zweischichtige nicht blockierende Architektur, um Überschrift für den Ost-West-KI-Verkehr zu vermeiden.Es ermöglicht eine Fehlerumleitung auf Millisekunden-Ebene und erhält 97% gute Leistung für V8t-SuperpodsIn Kombination mit dem Jupiter-System für langfristige Datenzentren von Google unterstützt das Schichtverbindungssystem mehr als eine Million TPU-Chips in einem einzigen logischen Cluster mit 1.7 ZFLOPS Gesamtberechnung des FP4.
Leistung, TCO und Marktposition
Bei 40% MFU sind die TPU-Ausbildungskosten 62% niedriger als bei NVIDIA GB300.v8t FP4-Leistung bei Dichte zwischen GB200 und GB300, während Google in der groß angelegten Clustering mit einem 9.600-Chip-Single-Pod dominiert, weit über NVIDIA's 72-GPU NVLink-Domain.
Im Hinblick auf die Zukunft werden NVIDIA's Vera Rubin, Rubin Ultra und Kyber die Leistungslücke von TPU's von 2026 bis 2027 verringern.fehlende Hardwareverknappung und begrenzte Kompatibilität mit dem ÖkosystemDennoch unterhält Google seine Stärken bei massiver Clustering, deterministischer Latenz und Kosteneffizienz für MoE-Workloads.
Google erweitert sowohl die TPU- als auch die NVIDIA-GPU-Infrastruktur.TPU v8 sichert die Wettbewerbsfähigkeit von Google gegen NVIDIA Grace-Blackwell für die grenzüberschreitende Einsatz von KI im großen Maßstab.
Beibei Qianxing Jietong Technology Co., Ltd.
Sandy Yang, Leiterin der globalen Strategie
WhatsApp / WeChat: +86 13426366826
E-Mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com Die Daten werden auf der Website der chinesischen Regierung gespeichert.
Geschäftsfokus:
Vertrieb von IKT-Produkten/Systemintegration und Dienstleistungen/Infrastrukturlösungen
Mit mehr als 20 Jahren Erfahrung im IT-Vertrieb arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.
¢Technologie nutzen, um eine intelligente Welt aufzubauen¡Ihr vertrauenswürdiger Dienstleister für IKT-Produkte!
Sandy Yang, Leiterin der globalen Strategie
WhatsApp / WeChat: +86 13426366826
E-Mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com Die Daten werden auf der Website der chinesischen Regierung gespeichert.
Geschäftsfokus:
Vertrieb von IKT-Produkten/Systemintegration und Dienstleistungen/Infrastrukturlösungen
Mit mehr als 20 Jahren Erfahrung im IT-Vertrieb arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.
¢Technologie nutzen, um eine intelligente Welt aufzubauen¡Ihr vertrauenswürdiger Dienstleister für IKT-Produkte!



