logo
Startseite Neuigkeiten

Unternehmensnachrichten über Lightbits und ScaleFlux demonstrieren 100- bis 280-fache KV-Cache-Beschleunigung

Bescheinigung
China Beijing Qianxing Jietong Technology Co., Ltd. zertifizierungen
China Beijing Qianxing Jietong Technology Co., Ltd. zertifizierungen
Kunden-Berichte
Das Verkaufspersonal von Beijing Qianxing Jietong Technology Co.,Ltd ist sehr Berufs- und geduldig. Sie können Zitate schnell zur Verfügung stellen. Die Qualität und das Verpacken der Produkte ist auch sehr gut. Unsere Zusammenarbeit ist sehr glatt.

—— 》 《Festfing DV LLC

Als ich Intel CPU und nach Toshiba SSD dringend suchte, gab Sandy von Beijing Qianxing Jietong Technology Co., Ltd mir viel Hilfe und erhielt mir die Produkte, die ich schnell benötigte. Ich schätze sie wirklich.

—— Kitty Yen

Sandy von Beijing Qianxing Jietong Technology Co.,Ltd ist ein sehr vorsichtiger Verkäufer, der mich an Konfigurationsfehler in der Zeit erinnern kann, als ich einen Server kaufe. Die Ingenieure sind auch sehr Berufs und können den Prüfungsprozeß schnell abschließen.

—— Strelkin Mikhail Vladimirovich

Wir sind sehr zufrieden mit unserer Erfahrung in der Zusammenarbeit mit Beijing Qianxing Jietong. Die Produktqualität ist ausgezeichnet und die Lieferung erfolgt immer pünktlich. Ihr Verkaufsteam ist professionell, geduldig und sehr hilfreich bei all unseren Fragen. Wir schätzen ihre Unterstützung sehr und freuen uns auf eine langfristige Partnerschaft. Sehr empfehlenswert!

—— Ahmad Navid

Qualität: “Große Erfahrung mit meinem Lieferanten. Der MikroTik RB3011 war bereits benutzt, aber er war in sehr gutem Zustand und alles funktioniert perfekt.Und alle meine Sorgen wurden schnell gelöst.Ein sehr zuverlässiger Lieferant wird empfohlen.

—— Geran Colesio

Ich bin online Chat Jetzt
Firma Neuigkeiten
Lightbits und ScaleFlux demonstrieren 100- bis 280-fache KV-Cache-Beschleunigung
Lightbits Labs und ScaleFlux haben eine Leistungssteigerung von das 100- bis 280-fache für KV-Cache-Workloads erzielt, indem sie die LightInferra-Cache-Software nutzen, um Daten von den Computational Storage SSDs von ScaleFlux zu lesen.

Die beiden Unternehmen lieferten KV-Cache-Daten an GPUs, die in einer FarmGPU-Rechenzentrumsumgebung eingesetzt wurden, und werden diesen Durchbruch auf der bevorstehenden GTC-Konferenz von Nvidia vorstellen. Ein KV-Cache speichert Token-Vektoren im High-Bandwidth Memory (HBM) einer GPU. Sobald die HBM-Kapazität erschöpft ist, müssen KV-Cache-Datenblöcke neu berechnet werden – ein Prozess, der Zeit kostet und die Geschwindigkeiten beim KI-Training und bei der Inferenz beeinträchtigt. Diese Verlangsamung wird besonders ausgeprägt, wenn KI-Workloads skaliert werden, was zu einem starken Anstieg der Anzahl der zur Erzeugung von Vektoren verwendeten Token führt.

Die KV-Cache-Software erweitert die Cache-Schicht logisch nach außen: zuerst auf die x86-CPU und ihren DRAM auf dem GPU-Server, dann auf lokale NVMe-Laufwerke im selben x86-System und weiter auf externe NVMe-SSDs. Diese gestufte Erweiterung eliminiert die Notwendigkeit, Token-Vektoren neu zu berechnen. Obwohl NVMe-SSDs naturgemäß eine höhere Zugriffslatenz als HBM oder DRAM aufweisen, ist das Abrufen vorab berechneter Token-Vektoren weitaus schneller, als Zehntausende davon von Grund auf neu zu berechnen. Lightbits und ScaleFlux behaupten, dass ihre Lösung den Abruf von KV-Cache-Daten von SSDs drastisch beschleunigt.

Arthur Rasmusson, Director of AI Architecture bei Lightbits Labs, erklärte: „Wir verwandeln den Inferenzspeicher von einem reaktiven Cache in eine intelligente, gestreamte Datenebene.“

Wie?


„Indem wir nur die Daten vorab abrufen, die wichtig sind, und sie über Hochgeschwindigkeits-RDMA an GPUs liefern, bevor sie benötigt werden, eliminieren wir die Verzögerungen, die traditionell die Leistung bei langen Kontexten einschränken. Das Ergebnis ist eine geringere Time-to-First-Token (TTFT), ein stabilerer Durchsatz unter realer Last und eine deutlich höhere effektive GPU-Auslastung.“

Keith McKay, Senior Director of Solutions Architecture and Technical Partnerships bei ScaleFlux, kommentierte: „Was wir auf der GTC zeigen, ist ein erster Einblick, wie intelligentere Datenplatzierung und persistentes Attention-State-Management Inferenzsysteme reaktionsfähig halten können, wenn die Kontextfenster wachsen. Dies ist eine Zusammenarbeit, die wir gerne gemeinsam mit echten Betreibern gestalten möchten.“

Sowohl Lightbits als auch ScaleFlux zielen darauf ab, Cloud- und Infrastrukturbetreiber zur Übernahme ihrer Software und SSDs zu ermutigen und so kostspielige GPU-Leerlaufzeiten zu eliminieren.

Betrachten wir zunächst den Beitrag von ScaleFlux, bevor wir uns der ausgefeilteren Lightbits-Softwareebene zuwenden.

ScaleFlux bietet NVMe-SSDs und Computational Storage Drives (CSDs) mit hardwarebasierter Write Reduction Technology (WRT). Diese Laufwerke, die durch hardwarebeschleunigte Komprimierung und SoC-gesteuertes Metadatenmanagement unterstützt werden, liefern bis zu viermal mehr logische Kapazität als physischen Speicher, während sie für Host-Systeme vollständig transparent bleiben. Das Unternehmen ist Mitglied des Open Flash Platform (OFP) Konsortiums, das daran arbeitet, die KI-Datenspeichersysteme neu zu definieren, indem es dichte, latenzarme, energieeffiziente Systeme anbietet – mit der 10-fachen Dichte herkömmlicher dateibasierter KI-Speicher und nur einem Zehntel des Stromverbrauchs.

Aufbauend auf diesen Speicherlaufwerken fügt Lightbits das intelligente Vorabrufen von KV-Cache-Daten hinzu bevor GPUs diese benötigen, wodurch Verzögerungen durch unzureichende KV-Kapazität oder kostspielige Neuberechnungen von Token-Vektoren verhindert werden. Seine LightInferra-Software verwendet KV-Cache-optimierte Caching-Algorithmen, um erforderliche Daten mit RDMA-Geschwindigkeiten vor der eigentlichen Nachfrage in den GPU-Speicher zu ziehen.

Nochmal, wie?


Die Software läuft auf dem x86-Host, der in GPU-Servern integriert ist, und verfolgt die Zugriffsmuster von KV-Cache-Datenblöcken. Mithilfe dieser Telemetrie betreibt sie eine Sub-Linear Sparse Attention Prefetch (SLSAP)-Engine, um die KV-Blöcke zu identifizieren, die am wahrscheinlichsten als nächstes benötigt werden.

Diese Engine kombiniert Locality-Sensitive Hashing (LSH) mit statistischem Wiederverwendungsmodell – unter Analyse der historischen Zugriffslokalität in Attention-Berechnungen –, um KV-Blöcke zu bewerten und zu priorisieren, und wählt dann diejenigen mit der höchsten Wahrscheinlichkeit aus, von GPUs angefordert zu werden.

Dieser Auswahlprozess nutzt die inhärente Sparsamkeit beim GPU-Datenzugriff: Die meisten Token beziehen sich nur auf eine kleine Teilmenge früherer Token. Durch die Isolierung dieser hochwahrscheinlichen Blöcke reduziert die Lösung drastisch das Volumen der Token-Vektoren, die zurück an GPUs gestreamt werden müssen.

Ein zweiter Algorithmus konzentriert sich auf Wiederverwendungsmuster: Aktuelle Token, semantisch ähnliche Token und strukturelle Muster, die in RAG- oder Multi-Turn-Chat-Szenarien üblich sind, werden häufig wiederverwendet und entsprechend priorisiert.

LightInferra ruft diese Token-Blöcke zuerst aus dem DRAM des x86-Servers oder bei Bedarf von externen ScaleFlux-SSDs ab und lädt sie dann über RDMA-Verbindungen in den HBM der GPU vor.

Lightbits hat diesen Ansatz mit großen Sprachmodellen-Workloads gegen die Neuberechnung von gecachtem Inhalt von Grund auf verglichen und dabei Verbesserungen der Time-to-First-Token (TTFT) gemessen. Die berichteten Beschleunigungsfaktoren von 100x bis 280x stammen direkt aus diesen Testergebnissen.

neueste Unternehmensnachrichten über Lightbits und ScaleFlux demonstrieren 100- bis 280-fache KV-Cache-Beschleunigung  0

Natürlich würden wir gerne Benchmark-Ergebnisse sehen, die das Lightbits-ScaleFlux KV-Cache-Beschleunigungsschema mit KV-Cache-Beschleunigern von DDN, Hammerspace, VAST Data, WEKA und anderen vergleichen, aber sie sind nicht verfügbar.

Es gibt Diagramme, die zeigen, wie LightInferra-ScaleFlux die TTFT bei der Cache-Regeneration mit zunehmender Modellgröße schrittweise verbessert hat. Z.B.:

Alle zugehörigen Benchmark-Daten werden in Diagrammen im logarithmischen Maßstab dargestellt, die hauptsächlich für Informatiker bestimmt sind, aber die Klarheit der Sprache erleichtert das Verständnis der realen Auswirkungen erheblich: „Das Ergebnis ist eine anhaltende Time-to-First-Token (TTFT)-Leistung, wenn der Kontext von 100.000 Token auf 1 Million und mehr skaliert.“


Wie Jonmichael Hands von FarmGPU es ausdrückt: Wenn eine Konversation mit 400.000 Token wieder aufgenommen wird und das System den gesamten KV-Cache von Grund auf neu generieren muss, bedeutet dies zwei volle Minuten GPU-Laufzeit ohne produzierte Token. LightInferra verändert das Wirtschaftsmodell vollständig – derselbe Workload generiert seinen ersten Token in weniger als einer halben Sekunde und verwandelt eine nicht tragfähige Produktkategorie in eine profitable.

Lightbits und ScaleFlux haben diese gemeinsame Lösung speziell für die neocloud GPU-Farmen der nächsten Generation entwickelt, auf denen große GPU-Pods Hunderte oder sogar Tausende von gleichzeitigen KI-Modell-Workloads ausführen. Fast jeder dieser Workloads wird die Grenze der KV-Cache-Kapazität im High-Bandwidth Memory (HBM) der GPU erreichen.


neueste Unternehmensnachrichten über Lightbits und ScaleFlux demonstrieren 100- bis 280-fache KV-Cache-Beschleunigung  1


Bei herkömmlichen Setups stehen Teams vor zwei kostspieligen Optionen: das langsame Abrufen von Token-Vektoren von generischem externem Speicher oder der weitaus zeitaufwändigere Prozess der Neuberechnung dieser Vektoren von Grund auf – beides führt dazu, dass GPUs stundenlang ungenutzt bleiben. Die Kombination von LightInferra und ScaleFlux eliminiert diesen lähmenden Schmerzpunkt der Branche vollständig.
FarmGPU CEO Jonmichael Hands fügte hinzu: „Schneller vernetzter Speicher von Lightbits eröffnet eine Fülle neuer Anwendungsfälle für die Inferenz mit langen Kontexten. Durch die Kombination unseres Managed Service mit den Hochleistungs-Speichern von Lightbits auf ScaleFlux NVMe-Laufwerken können wir die Zeit bis zum ersten Token verkürzen und die GPU-Auslastung steigern, wodurch die Gesamtkosten (TCO) für Inferenz-Workloads drastisch gesenkt werden.“

Beijing Qianxing Jietong Technology Co., Ltd.

Sandy Yang/Global Strategy Director

WhatsApp / WeChat: +86 13426366826

E-Mail: yangyd@qianxingdata.com
Website:
www.qianxingdata.com/www.storagesserver.com
Geschäftsschwerpunkt:
ICT-Produktvertrieb/Systemintegration & Dienstleistungen/InfrastrukturlösungenMit über 20 Jahren Erfahrung im IT-Vertrieb arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.

„Technologie nutzen, um eine intelligente Welt zu bauen“ Ihr vertrauenswürdiger ICT-Produkt-Dienstleister!


Kneipen-Zeit : 2026-03-18 11:34:46 >> Nachrichtenliste
Kontaktdaten
Beijing Qianxing Jietong Technology Co., Ltd.

Ansprechpartner: Ms. Sandy Yang

Telefon: 13426366826

Senden Sie Ihre Anfrage direkt an uns (0 / 3000)