IBM hat eine inhaltsbewusste Speicherarchitektur (CAS) vorgestellt, die KI-Datenverarbeitung direkt in die Speicherschicht integriert. Dieser Ansatz ist auf Retrieval-Augmented Generation (RAG)-Workflows zugeschnitten, da er die Dokumentenvektorisierung in das Speichersystem selbst integriert – und damit den Bedarf an externen Vorverarbeitungspipelines reduziert.
CAS verlagert eine Schlüsselfunktion von RAG – die Dokumenteneinbettung mittels Large Language Model (LLM)-basierter Methoden – in die Speicherinfrastruktur. Dies ermöglicht es Unternehmen, Daten an ihrem bestehenden Speicherort zu verarbeiten und zu indizieren, wodurch Speichersysteme mit KI-gesteuerten Workloads synchronisiert und die Datenbewegung über verschiedene Infrastrukturebenen hinweg minimiert wird. IBM positioniert dies als Mittel zur Vereinfachung der Bereitstellung bei gleichzeitiger Steigerung der Leistung und Verbesserung der Datenlokalität für KI-Anwendungen.
Vektordatenbank im großen Maßstab
Das Herzstück der CAS-Implementierung von IBM ist eine Vektordatenbank, die für die semantische Suche optimiert ist. Vektordatenbanken unterstützen die ungefähre Nachbarsuche (ANN), die es KI-Systemen ermöglicht, relevante Datenblöcke basierend auf Ähnlichkeitsmetriken wie Kosinusähnlichkeit oder L2-Distanz abzurufen. Diese Fähigkeit ist grundlegend für RAG, bei dem Benutzeranfragen in Vektoren umgewandelt und mit indizierten Unternehmensdaten abgeglichen werden, um kontextbezogene Antworten zu liefern.
IBM CAS-DiagrammQuelle: IBM
IBM Research hat in Zusammenarbeit mit Samsung und NVIDIA ein Prototypensystem vorgestellt, das auf einem einzigen Server auf 100 Milliarden Vektoren skaliert. Das System erreichte eine Recall- und Präzisionsrate von über 90 Prozent bei einer durchschnittlichen Abfragelatenz von unter 700 Millisekunden. Diese Skalierung ist für Unternehmensumgebungen geeignet, in denen Datensätze Milliarden von Dateien umfassen können und nach vollständiger Indizierung auf Hunderte von Milliarden von Vektoren anwachsen.
RAG-Pipeline-Integration
RAG wird zu einem bevorzugten Ansatz für Unternehmens-KI, da er die Genauigkeit der Ausgabe verbessert, ohne dass ein erneutes Training des Modells erforderlich ist. Er funktioniert, indem er Prompts mit unternehmensspezifischen Daten ergänzt, die aus einer Vektordatenbank abgerufen werden.
Die Pipeline beginnt mit der Datenerfassung, bei der Dokumente wie PDFs und Präsentationen geparst, in Blöcke aufgeteilt und in Einbettungen umgewandelt werden. Diese Einbettungen werden in einer Vektordatenbank gespeichert, die Daten für eine effiziente Ähnlichkeitssuche organisiert. Bei der Abfrage wird die Benutzereingabe eingebettet und mit gespeicherten Vektoren abgeglichen, wobei relevante Inhalte als Kontext an das Sprachmodell weitergegeben werden. Dieser Grounding-Mechanismus reduziert Halluzinationen und erhöht das Vertrauen in KI-generierte Ausgaben.
Das CAS von IBM integriert diese gesamte Pipeline direkt in den Speicher und konsolidiert Erfassung, Indizierung und Abruf in unmittelbarer Nähe der Daten.
Herausforderungen bei Skalierung und Kosten
Unternehmensspeichersysteme arbeiten bereits im Petabyte-Bereich. Wenn sie auf CAS erweitert werden, kann jede Datei Hunderte von Vektoren erzeugen, wodurch die Datensatzgröße schnell anwächst. Herkömmliche Vektordatenbanken skalieren typischerweise über mehrere Server, was zusätzliche Kosten und betriebliche Komplexität mit sich bringt. Das Indizieren und erneute Indizieren großer Datensätze wird ebenfalls zu zeitaufwändigen Aufgaben.
Der Ansatz von IBM konzentriert sich auf die Verbesserung der Vektordichte und die Reduzierung des Indizierungsaufwands, um die Infrastrukturausbreitung zu begrenzen. Die Architektur trennt Vektor- und Indexspeicher vom Abfrage-Compute, was eine unabhängige Skalierung von Speicher- und Rechenressourcen ermöglicht. Dies wird durch IBM Storage Scale und sein Hochleistungs-Paralleldateisystem ermöglicht.
Speicher- und Hardwarearchitektur
Die CAS-Implementierung nutzt das IBM Storage Scale System 6000 (ESS 6000), eine All-Flash-Plattform, die für KI- und Hochleistungs-Workloads entwickelt wurde. Das System unterstützt bis zu 48 NVMe-Laufwerke pro 4U-Gehäuse, wobei die einzelnen Laufwerkskapazitäten von 7 TB bis 60 TB reichen. Es integriert PCIe Gen5, 400 Gb InfiniBand oder 200 Gb Ethernet-Konnektivität und liefert bis zu 340 GB/s Lese- und 175 GB/s Schreibdurchsatz pro Knoten sowie bis zu 7 Millionen IOPS.
Die Plattform unterstützt auch NVIDIA GPUDirect Storage, das direkte Datenpfade zwischen Speicher und GPUs ermöglicht, sowie BlueField-3 DPUs zur Entlastung von Netzwerk- und Datenverarbeitungsaufgaben.
Samsung PM9D3a PCIe Gen5 NVMe SSDs bieten Hochdurchsatz-Speicher mit hoher Dichte. Basierend auf der achten Generation TLC V-NAND bieten diese Laufwerke bis zu 30,72 TB pro Gerät mit sequenziellen Lesegeschwindigkeiten von bis zu 12 GB/s und Schreibgeschwindigkeiten von bis zu 6,8 GB/s. Die Verwendung von kommerziell erhältlichen Enterprise-SSDs ermöglicht es der Architektur, mit Standardkomponenten zu skalieren.
Hierarchische Indizierung und GPU-Beschleunigung
Um die Indizierung im großen Maßstab zu bewältigen, hat IBM ein hierarchisches Indizierungsmodell entwickelt, das aus mehreren Unterindizes besteht, die unabhängig voneinander optimiert werden können. Diese Struktur ermöglicht inkrementelle Updates und lokalisierte Neuindizierungen, ohne den gesamten Datensatz zu stören, was sowohl die Verfügbarkeit als auch die betriebliche Effizienz verbessert.
Die GPU-Beschleunigung reduziert die Indizierungszeit im Vergleich zu reinen CPU-Ansätzen drastisch. Aufgaben, die auf CPUs Stunden dauern würden, können mit NVIDIA GPUs in Minuten erledigt werden. In Tests dauerte das Erstellen von Indizes für 100 Milliarden Vektoren 4 Tage mit 6 NVIDIA H200 GPUs, verglichen mit geschätzten 120 Tagen auf einem Dual-Socket-CPU-System.
Der vollständige Datensatz, einschließlich Vektoren und Indizes, verbrauchte etwa 153 TiB Speicherplatz. Die anfängliche Datenladung und Partitionierung dauerte neun Tage. Das resultierende System lieferte eine durchschnittliche Abfragelatenz von 694 ms bei 90 % Recall, validiert gegen Brute-Force-Ground-Truth-Berechnungen.
Roadmap
IBM und NVIDIA optimieren die Plattform weiter und konzentrieren sich auf die Reduzierung der Indizierungs- und Abfragelatenz. Aktuelle Ziele sind die Indizierung von 100 Milliarden oder mehr Vektoren innerhalb eines einzigen Tages, die Reduzierung der Datenerfassungszeit von neun Tagen auf einen Tag und die Senkung der Abfragelatenz in den Bereich von 50-100 Millisekunden bei gleichzeitiger Beibehaltung von 90 % Recall.
Die Integration der Vektorindizierung in Standarddateisysteme zielt darauf ab, die Bereitstellung zu vereinfachen und die Hürden für die Einführung von Unternehmens-KI zu senken. Durch die direkte Einbettung von RAG-Funktionen in den Speicher positioniert IBM CAS als grundlegende Schicht für KI-fähige Infrastrukturen.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
E-Mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Geschäftsschwerpunkt:
ICT-Produktvertrieb/Systemintegration & Dienstleistungen/Infrastrukturlösungen
Mit über 20 Jahren Erfahrung im IT-Distribution, arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.
„Technologie nutzen, um eine intelligente Welt aufzubauen“ Ihr vertrauenswürdiger ICT-Produkt-Dienstleister!
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
E-Mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Geschäftsschwerpunkt:
ICT-Produktvertrieb/Systemintegration & Dienstleistungen/Infrastrukturlösungen
Mit über 20 Jahren Erfahrung im IT-Distribution, arbeiten wir mit führenden globalen Marken zusammen, um zuverlässige Produkte und professionelle Dienstleistungen zu liefern.
„Technologie nutzen, um eine intelligente Welt aufzubauen“ Ihr vertrauenswürdiger ICT-Produkt-Dienstleister!



