Mobile-Menu

KI-Infrastruktur Die neue Rolle von Storage

Ein Gastbeitrag von Wendell Wenjen* 5 min Lesedauer

Anbieter zum Thema

Die oft verwendete Metapher „Daten sind das neue Öl“ greift deutlich zu kurz. Während Erdöl ein austauschbarer, endlicher Rohstoff ist, sind Daten einzigartig und lassen sich beliebig oft vervielfältigen. Richtig ist jedoch, dass Daten – insbesondere unternehmenseigene Daten – die grundlegende Quelle für die Anpassung von KI-Modellen an spezifische Branchen, Unternehmenskontexte und Anwendungsfälle sind.

Daten sind zwar kein mit Öl vergleichbarer Rohstoff, doch eine grundlegende Quelle für KI-Modelle.(Bild:  Midjourney / KI-generiert)
Daten sind zwar kein mit Öl vergleichbarer Rohstoff, doch eine grundlegende Quelle für KI-Modelle.
(Bild: Midjourney / KI-generiert)

Derzeit planen die meisten Unternehmen KI-Anwendungen; viele haben bereits erste Systeme produktiv im Einsatz. Der Übergang vom Proof-of-Concept in den Produktivbetrieb bleibt jedoch eine kritische Hürde: Viele Projekte scheitern an erheblichen Infrastrukturkosten, an mangelnder Abstimmung der Projektziele mit den Stakeholdern oder am Fachkräftemangel im Bereich KI-Entwicklung.

Enterprise-KI: vom Datensilo zum Data Lake

Der Unternehmens-Data-Lake ist die gängigste Methode für die Erstellung von KI-Lernmodellen. Dabei werden relevante Unternehmensdaten aus isolierten Anwendungen, gemeinsam genutzten Laufwerken und Protokolldaten gesammelt. Für die Erstellung eines genauen KI-Modells sind das Identifizieren, Aggregieren, Extrahieren, Normalisieren und weitere Datenaufnahme-Aufgaben zwar oft der zeitaufwändigste und arbeitsintensivste Teil des KI-Entwicklungsprozesses, aber unerlässlich. Moderne Data Lakes basieren aus Kostengründen auf Objektspeichersoftware, die häufig auf festplattenbasierten Storage-Servern läuft (im Gegensatz zu älteren Hadoop-basierten Systemen).

Die gesammelten Daten werden anschließend für das Fine-Tuning kommerzieller oder quelloffener Large Language Models (LLM) genutzt, beispielsweise für generative KI-Anwendungen. Anstatt ein komplett neues LLM zu entwickeln, greifen Unternehmen auf vortrainierte Sprachmodelle zurück, die bereits über allgemeines Domänenwissen verfügen. Diese Modelle werden dann mit unternehmensspezifischen Daten nachtrainiert.

Dieser Fine-Tuning-Prozess erfordert dedizierte GPU- und Storage-Infrastruktur und läuft kontinuierlich, da laufend neue Daten entstehen. Die Storage-Systeme müssen dabei die wachsenden Datenmengen persistent und performant vorhalten. Das Ergebnis ist ein maßgeschneidertes LLM, das unternehmensspezifische Antworten generieren kann.

RAG für Echtzeitdaten

Ein vollständiges Neutraining von Unternehmens-LLMs bei jeder Datenaktualisierung ist oft nicht praktikabel, insbesondere bei Echtzeitdaten wie Finanzmarktinformationen, Nachrichten und anderen zeitkritischen Informationen. In solchen Fällen hat sich Retrieval Augmented Generation (RAG) als bewährte Technik etabliert. RAG ergänzt die Eingabeabfrage mit kontextrelevanten Informationen und erweitert somit die ursprüngliche Anfrage.

In der Abrufphase durchsucht das System eine Vektordatenbank nach ähnlichen Informationen. Dort liegen diese als Vektor-Embeddings vor – numerische Repräsentationen der Daten. Die gefundenen Informationen werden mit der tokenisierten Nutzerabfrage kombiniert und als Eingabe an das Unternehmens-LLM übergeben. Diese Methode liefert relevantere Antworten und reduziert Halluzinationen. Die Vektordatenbank bei RAG ist ein Datenspeicher, der als Datei- oder Objektspeicher implementiert werden kann.

Storage als Fundament

Storage und Datenmanagement sind integraler Bestandteil der KI-Infrastruktur. Dazu gehören Storage-Server, Netzwerke sowie Festplatten- und Flash-Medien. Sie alle schaffen die Grundlage für die dauerhafte und geschützte Speicherung von Unternehmensdaten. In Enterprise-KI-Umgebungen kommen sowohl festplattenbasierte als auch Flash-Storage-Systeme zum Einsatz, die jeweils unterschiedliche Kompromisse zwischen Kosten und Leistung erfordern.

Das Datenmanagement umfasst eine Storage-Verwaltungssoftware zur Pflege und Aktualisierung digitaler Informationen. Diese kann blockbasiert, dateibasiert oder objektbasiert arbeiten. Jede Zugriffsmethode spielt eine Rolle in der Enterprise-KI-Infrastruktur und bietet je nachdem, ob Daten mit fester oder variabler Größe gespeichert werden, unterschiedliche Vorteile bei Performance und Flexibilität. Ein neues Element ist die Datenorchestrierung, die Datenmanagement-Plattformen um intelligente und automatisierte Workflows ergänzt.

Das Konzept der „Data-Gravity“ besagt, dass große Datenmengen eine Art „Masse“ bilden, die Anwendungen und Services anzieht. Dadurch wird es zunehmend schwieriger, große Datensätze zwischen verschiedenen Rechenressourcen zu bewegen. Mit wachsenden Unternehmensdatenspeichern wird daher ein größerer Teil der KI-Rechenlast „vor Ort“ ausgeführt, also dort, wo die Daten liegen. Die Rechenressourcen kommen somit zu den Daten oder werden in die Datenmanagement-Plattformen integriert und nicht umgekehrt. Dies ist besonders wichtig bei umfangreichen, anspruchsvollen Workloads.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Agentische KI: Inferenz mit Key-Value-Cache

Im vergangenen Jahr hat sich hochvolumige Inferenz in großem Maßstab etabliert. Das gilt insbesondere für agentische KI-Workflows. Diese kombinieren mehrere Reasoning- oder zielorientierte KI-Agenten. Solche Workloads verarbeiten Tausende von Abfragen pro Sekunde und erfordern daher eine hocheffiziente Datenverarbeitung.

Eine Optimierung, die zunehmend zum Einsatz kommt, ist die disaggregierte Inferenzverarbeitung. Dabei werden die beiden Phasen einer Inferenzabfrage voneinander getrennt: In der Prefill-Phase wird die Eingabeabfrage in Token-Einheiten unterteilt, in der Dekodierungsphase gibt das KI-Modell die Antwort aus. Durch die Zuweisung separater GPU-Ressourcen für jede Phase lässt sich der gesamte Inferenzdurchsatz verbessern.

In der Dekodierungsphase findet eine weitere Optimierung statt: Die Ergebnisse zuvor verarbeiteter Abfragen werden gespeichert und bei einem identischen Token-Muster wiederverwendet. Diese Ergebnisse werden im Key-Value-Cache in mehreren Ebenen gespeichert – vom sehr schnellen, aber kleinen GPU-Speicher über den größeren lokalen NVMe-Storage im System bis hin zum gemeinsamen, großskaligen Netzwerkspeicher.

Dieser Key-Value-Cache kann mehrere Petabyte groß werden. Für die Token-Zwischenergebnisse wird ein gemeinsamer, NVMe-basierter Datei- oder Objektspeicher verwendet. Dadurch werden Verarbeitungsengpässe durch kontinuierliche Neuberechnungen identischer Abfragen vermieden. Der Zugriff auf gespeicherte Ergebnisse steigert die Gesamtleistung der Inferenz erheblich.

KI-fähige Storage-Architekturen

Die Anforderungen an Storage-Infrastrukturen werden durch Enterprise-KI neu definiert. Dies umfasst Data Lakes für das Fine-Tuning, Vektordatenbanken für RAG-Inferenz und mehrstufige Key-Value-Caches für disaggregierte, großskalige Inferenzverarbeitung. Die technologische Entwicklung schreitet dabei kontinuierlich voran.

Unternehmen benötigen daher flexible und rekonfigurierbare Storage-Architekturen, die künftige KI-Deployment-Methoden unterstützen können. Die grundlegende Storage-Infrastruktur und das Management von Unternehmensdaten bleiben dabei wiederverwendbar und bilden eine solide Basis für kommende technologische Entwicklungen.

Wendell Wenjen, Director of Storage Market Development bei Supermicro.(Bild:  Supermicro)
Wendell Wenjen, Director of Storage Market Development bei Supermicro.
(Bild: Supermicro)

* Der Autor: Wendell Wenjen ist Director of Storage Market Development bei Supermicro. Zuvor war er bei Intel, Seagate, LG Electronics, Flex und Acer tätig, wo er verschiedene Positionen im Produktmanagement, in der Geschäftsentwicklung und im Marketing innehatte. Er hat zwei Beiträge auf der IEEE Aerospace Applications Conference veröffentlicht und hält ein Patent für Server-I/O-Technologie. Wendell hat einen Bachelor of Science, einen Master of Engineering und einen MBA.

Aktuelles eBook

Storage für HPC & KI

eBook Storage für HPC & KI
eBook „Storage für HPC & KI“
(Bild: Storage-Insider)

Speichersysteme für das HPC und für die verschiedenen Disziplinen der KI sind hohen Anforderungen ausgesetzt. Denn sie müssen enorme Datenmengen in kürzester Zeit bereitstellen oder sammeln. Wie können diese Herausforderungen gemeistert werden?

Die Themen im Überblick:

  • Aktuelle Trends in der Künstlichen Intelligenz
  • High-Performance Computing – Explosion der Innovationen
  • Künstliche Intelligenz – nahezu Echtzeit-Datenverarbeitung

(ID:50597534)