WEKA hat die Integration seiner NeuralMesh-Plattform mit der NVIDIA STX Referenzarchitektur angekündigt,zur Einrichtung eines Augmented Memory Grids als wesentlichen Baustein für die KI-Infrastruktur der nächsten GenerationDie kombinierte Lösung löst einen der wichtigsten Engpässe in groß angelegten Inferenzumgebungen: Speicherbeschränkungen, die die Leistung direkt beeinflussen, Gesamtbetriebskosten,und skalierbares Wachstum.
Das Augmented Memory Grid von WEKA, das über NeuralMesh arbeitet, erweitert den GPU-Speicher, indem es Caches mit Schlüsselwerten externalisiert und persistiert.Diese Architektur liefert einen hochleistungsfähigen Kontextspeicher für agentenartige KI-Workloads, unterstützt langkontextuelles Denken über Sitzungen, Tools und End-to-End-Workflows.und Spectrum-X Ethernet kann den Kontextspeicher-Token-Durchsatz um das Vierfache bis das Zehnfache steigernDie Plattform soll auch mindestens 320 GB/s Lese- und 150 GB/s Schreibleistung liefern, was die Leistung traditioneller KI-Speicherarchitekturen mehr als verdoppelt.
Die Infrastruktur des Gedächtnisses wird zum Engpass
WEKA konzentriert diese Integration auf die wachsende Herausforderung der Speicherwand in modernen KI-Bereitstellungen.Dies führt zu wiederholten Neuberechnungen und einer verringerten Betriebseffizienz.Mit zunehmender Systemkonkurrenz vervielfachen sich diese Ineffizienzen, wodurch die Infrastrukturkosten steigen und die Leistungsvorhersehbarkeit sinkt.
Das Unternehmen fördert die gemeinsame KV-Cache-Infrastruktur als Lösung.Shared Caching eliminiert redundante Verarbeitung und stabilisiert den Token-Durchsatz. NVIDIA STX liefert die validierte Referenzarchitektur für dieses Modell, während WEKA die Speicher- und Speichererweiterungsschicht liefert.
NeuralMesh und Augmented Memory Grid Architektur
NeuralMesh fungiert als verteilte Speicherplattform von WEKA, die nahtlos in den gesamten NVIDIA STX-Stack integriert werden kann.während das Augmented Memory Grid als dedizierte Speichererweiterungsschicht dient, die den KV-Cache außerhalb des GPU-Speichers konsolidiert.
Dieses Design erlaubt Abschlussumgebungen, lange Kontext-Sitzungen zu unterhalten, ohne die GPU-Ressourcen zu überladen.Die Plattform unterhält eine hohe Auslastung und eine gleichbleibende Leistung, wenn die Bereitstellungen skaliert werden..
WEKA stellt fest, dass das Augmented Memory Grid, das erstmals auf der GTC 2025 vorgestellt wurde und jetzt allgemein verfügbar ist, auf NVIDIA Grace CPU-Plattformen mit BlueField DPUs validiert wurde.Die Architektur liefert messbare Gewinne in der Abschlusswirksamkeit, einschließlich einer drastisch schnelleren Zeit bis zum ersten Token, einer höheren Durchsatzleistung pro GPU-Token und einer stabilen Leistung unter erhöhter Konkurrenz.Das Abladen des Datenweges auf BlueField-4 reduziert auch den CPU-Overhead und lindert I/O-Flaschenhalse.
Leistungs- und Effizienzsteigerungen
In produktionsähnlichen Umgebungen wurde die Plattform entwickelt, um die Reaktionsfähigkeit und die Infrastruktureffizienz zu verbessern.WEKA behauptet, dass das Augmented Memory Grid die Zeit bis zum ersten Token um das Vierfache bis zum Zwanzigfache verkürzen kann.Diese Verbesserungen resultieren aus höheren KV-Cache-Hit-Raten und weniger Re-Computationszyklen.Systemen ermöglichen, ihre Leistung bei zunehmender Kontextgröße und Nutzerzahl zu erhalten.
Firmus, ein Anbieter von KI-Infrastruktur, wird als einer der ersten Anwender hervorgehoben, der NeuralMesh mit einer NVIDIA-basierten Infrastruktur nutzt.,Dies ist ein wichtiger Schritt, um die Nutzung der vorhandenen GPUs zu verbessern.
Implikationen für das Design von KI-Infrastrukturen
Diese Integration unterstreicht eine Verschiebung im KI-Systemdesign, bei der Speicher- und Speicherstrategien zunehmend die Gesamtleistung und Kosteneffizienz definieren.Da sich die Arbeitsbelastungen der agentenartigen KI erweitern und die Kontextfenster erweitern, werden DRAM-Ansätze aufgrund steigender Rechenkosten und unterverwendeter GPUs nicht nachhaltig.
WEKA positioniert persistenten, gemeinsamen KV-Cache als grundlegende Fähigkeit für KI-Fabriken.niedrigerer Energieverbrauch pro SchlußaufgabeIm Gegensatz dazu werden Umgebungen, die ausschließlich auf lokalen GPU-Speicher angewiesen sind, mit steigenden Betriebskosten und sinkenden Renditen konfrontiert, wenn die Arbeitslasten zunehmen.
Beibei Qianxing Jietong Technology Co., Ltd.
Sandy Yang, Leiterin der globalen Strategie
WhatsApp / WeChat: +86 13426366826
E-Mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com Die Daten werden auf der Website der chinesischen Regierung gespeichert.
Geschäftsfokus:
Vertrieb von IKT-Produkten/Systemintegration und Dienstleistungen/Infrastrukturlösungen
Mit mehr als 20 Jahren Erfahrung im IT-Vertrieb arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.
¢Technologie nutzen, um eine intelligente Welt aufzubauen¡Ihr vertrauenswürdiger Dienstleister für IKT-Produkte!
Sandy Yang, Leiterin der globalen Strategie
WhatsApp / WeChat: +86 13426366826
E-Mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com Die Daten werden auf der Website der chinesischen Regierung gespeichert.
Geschäftsfokus:
Vertrieb von IKT-Produkten/Systemintegration und Dienstleistungen/Infrastrukturlösungen
Mit mehr als 20 Jahren Erfahrung im IT-Vertrieb arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.
¢Technologie nutzen, um eine intelligente Welt aufzubauen¡Ihr vertrauenswürdiger Dienstleister für IKT-Produkte!



