Mobile-Menu

Infrastruktur allein löst die Fragmentierung von KI-Daten nicht Global Namespace im Zeitalter agentischer KI

Ein Gastbeitrag von Floyd Christofferson* 8 min Lesedauer

Anbieter zum Thema

Über viele Jahre hinweg beruhte der moderne Data-Stack auf einer vergleichsweise einfachen Grundannahme: Daten werden erfasst, zentralisiert, analysiert und schließlich von Menschen interpretiert. Systeme verarbeiten Daten, Workflows transportieren Informationen durch verschiedene Verarbeitungsschritte, und letztlich treffen Menschen die Entscheidungen darüber, welche Maßnahmen daraus folgen.

Der Einsatz künstlicher Intelligenz rückt das Konzept eines Global Namespace wieder in den Vordergrund.(Bild:  Gemini / KI-generiert)
Der Einsatz künstlicher Intelligenz rückt das Konzept eines Global Namespace wieder in den Vordergrund.
(Bild: Gemini / KI-generiert)

Dieses Paradigma prägte über Jahrzehnte hinweg die Architektur moderner Unternehmensinfrastrukturen. Selbst in großskaligen Umgebungen wie High-Performance-Computing (HPC), den Life-Sciences oder der Energieindustrie folgten Daten- und Analyseprozesse überwiegend klar definierten Mustern. Enorme Mengen an Datei- und Objektdaten wurden durch vorhersehbare Pipelines bewegt und blieben dabei weitgehend auf klar abgegrenzte Infrastrukturbereiche beschränkt.

Zwar führten Storage-Silos häufig zu Ineffizienzen und einem erhöhten Verwaltungsaufwand, doch die Beziehungen zwischen Anwendungen, Infrastruktur und Daten waren vergleichsweise stabil und gut nachvollziehbar. Die zugrunde liegenden Datenflüsse waren in der Regel bekannt, kontrollierbar und nur selten grundlegenden Veränderungen unterworfen.

KI durchbricht diese Annahmen fundamental

Während Unternehmen ihre KI-Strategien mit hoher Geschwindigkeit vorantreiben, werden Daten längst nicht mehr nur von isolierten Anwendungen analysiert oder innerhalb vorhersehbarer Workflows genutzt. Dieselben unstrukturierten Datensätze dienen heute gleichzeitig dem Training von Modellen, der Ausführung von Inferenz-Pipelines, der Nutzung in Retrieval-Systemen und Datenbanken für Vektoren, der Analyse auf Plattformen sowie zunehmend der Steuerung autonomer Agenten, die über Rechenzentren, Clouds, Regionen und Edge-Standorte hinweg operieren. Daten werden fortlaufend wiederverwendet, neu interpretiert und von Systemen verarbeitet, die oft nur noch wenig Bezug zu den Anwendungen oder der Infrastruktur haben, in denen diese ursprünglich erzeugt wurden.

Dieser Wandel legt ein Problem offen, das die Branche seit Jahren eher umgeht als tatsächlich löst: Unternehmensdaten waren operativ nie wirklich vereinheitlicht.

Ein Großteil der aktuellen Reaktionen in der Branche mit Blick auf KI ist stark zentriert auf die Infrastruktur und fokussiert sich auf den Einsatz von GPUs, High-Performance-Storage sowie eng integrierten Plattformen, die KI-Systeme im großen Maßstab versorgen sollen. Diese Technologien sind wichtig und in vielen Fällen notwendig. Doch die wachsende Lücke zwischen den KI-Ambitionen von Unternehmen und ihrer operativen Realität deutet darauf hin, dass das eigentliche Problem nicht primär in der Infrastruktur-Performance liegt. Vielmehr besteht es in der anhaltenden Fragmentierung von Daten über Storage-Silos, Clouds, geografische Regionen und operative Domänen hinweg, die niemals dafür konzipiert wurden, als einheitliches, koordiniertes System zu funktionieren.

Im Zeitalter agentischer KI entwickelt sich diese Fragmentierung zu einer fundamentalen Herausforderung. Systeme greifen nicht länger lediglich auf Daten zu und überlassen deren Interpretation dem Menschen. Stattdessen verwalten sie Zustände, koordinieren Aktionen, teilen kontextuelle Informationen und interagieren kontinuierlich in Echtzeit mit Daten über unterschiedliche Umgebungen hinweg. Daten werden damit zunehmend zu einem aktiven Bestandteil autonomer Entscheidungs- und Ausführungsprozesse und nicht mehr nur zur Grundlage menschlicher Analysen.

Multi-Agenten-Systeme verschärfen die Fragmentierung, statt sie zu verbergen. Inkonsistente Datenlokalität, uneinheitliche Governance, fehlende Transparenz und divergierende Zugriffskontrollen verursachen längst nicht mehr nur operative Ineffizienzen, sondern beeinflussen zunehmend unmittelbar die Qualität, Zuverlässigkeit und Vertrauenswürdigkeit der Entscheidungen von KI-Systemen.

An diesem Punkt gewinnt das Konzept des globalen Namespace entscheidend an Bedeutung.

Neukonzeption des globalen Namespace

Historisch wurde der Begriff des Global Namespace vor allem mit der Vereinfachung des Dateizugriffs über Speichersysteme hinweg sowie mit begrenzten Formen der Föderation innerhalb streng kontrollierter Umgebungen der Infrastruktur in Verbindung gebracht. Im Zeitalter der KI gewinnt er jedoch eine weitreichende Bedeutung: Er wird zu einer vereinheitlichten operativen Datenschicht, die heterogene Storage-Anbieter, Edge- und Core-Umgebungen, mehrere Clouds und Cloud-Regionen sowie Datei- und Objektdaten in einem einzigen, koordinierten Zugriffs- und Kontrollsystem zusammenführt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Diese Unterscheidung ist wesentlich, denn viele aktuelle Ansätze zur „Vereinheitlichung“ setzen weiterhin auf eine beliebige Form der Konsolidierung in proprietären Infrastruktur-Stacks. Daten werden in neue Plattformen kopiert, in eng integrierte Storage-Umgebungen migriert oder um KI-spezifische Infrastrukturen herum reorganisiert, die Leistung und Kontrolle zentralisieren sollen. Solche Architekturen mögen die KI-Bereitstellung in Teilen vereinfachen, reproduzieren jedoch häufig die operative Fragmentierung, von der Unternehmen eigentlich wegkommen wollen, nun allerdings auf Ebene der KI.

Daten-Gravity verschwindet nicht, sie verlagert sich

Die Realität in den meisten Unternehmen ist weitaus komplexer, als es ein weiterer proprietärer Storage-Silo abbilden könnte. KI-Initiativen entstehen heute innerhalb bestehender, heterogener Landschaften von Daten, die mehrere Storage-Anbieter, Rechenzentren, Edge-Umgebungen, souveräne Regionen sowie Public-Cloud-Provider umfassen. Training kann an einem Standort erfolgen, Inferenz an einem weiteren Standort und Datengenerierung am Edge.

Regulatorische Vorgaben definieren die zulässigen Speicherorte für Daten, während wirtschaftliche Rahmenbedingungen die tatsächlichen Ausführungsorte von Workloads bestimmen. Unternehmen verfolgen daher häufig nicht eine einheitliche KI-Umgebung, sondern müssen mehrere parallel orchestrieren.

Viele Organisationen riskieren derzeit, jene fragmentierten Betriebsmodelle erneut entstehen zu lassen, die sie über Jahre hinweg modernisieren wollten, diesmal im Kontext von KI. Spezialisierte KI-Infrastruktur-Stacks beschleunigen zwar einzelne Projekte, erzeugen jedoch zugleich neue Silos, die vom unternehmensweiten Fundament der Daten abgeschnitten sind, in dem Geschäftskontext, Governance und operative Daten zusammenlaufen.

Hybride KI braucht hybride Datenmodelle

In diesem Kontext stellt ein globaler Namespace weit mehr als eine Abstraktion des Speichers dar. Er wird vielmehr zum zentralen Hebel, mit dem Unternehmen Daten über verschiedene Umgebungen hinweg operativ konsistent halten können, ohne sie dauerhaft verschieben oder kopieren zu müssen oder ihre Architektur um zusätzliche Silos herum neu gestalten zu müssen.

Dieses Architekturmodell bildet beispielsweise die Grundlage der Hammerspace Data Platform sowie ihrer AI Data Platform (AIDP), welche die operative Datenschicht gezielt auf KI-Umgebungen ausdehnt. Statt Unternehmen in eine weitere proprietäre KI-Speicherschicht zu drängen, ermöglicht Hammerspace eine durchgängige operative Datenschicht über bestehende Storage-Systeme, Clouds, Regionen und Edge-Umgebungen hinweg, basierend auf Standard-Protokollen sowie vorhandener Infrastruktur.

Daten können auf den Storage-Plattformen verbleiben und gleichzeitig Teil eines einheitlichen operativen Frameworks werden, das On-Prem-Umgebungen, Edge-Standorte sowie Cloud-Infrastrukturen umfasst. Richtlinien zu Datenlokalität, Platzierung, Schutz, Souveränität und Zugriff bleiben dabei unabhängig von der physischen Infrastruktur wirksam, auf der die Daten tatsächlich gespeichert sind.

Dies gewinnt insbesondere an Bedeutung, da Unternehmen heute beginnen, KI in großem Maßstab produktiv einzusetzen. Ein deutlich erkennbares, branchenweites Muster zeigt sich beispielsweise darin, dass AI-Readiness weit über die Bereitstellung von GPUs oder die Optimierung der Infrastruktur-Performance hinausreicht.

Viele Unternehmen stellen fest, dass die eigentlichen operativen Herausforderungen (Governance, Datentransparenz, Datenlokalität und Koordination) sich deutlich komplexer darstellen als der Aufbau der Infrastruktur selbst. Die zentrale Herausforderung liegt daher zunehmend darin, Daten über fragmentierte Umgebungen hinweg konsistent zugänglich, verwaltbar und operational nutzbar zu machen.

Die FOMO-Lücke der KI-Ära

Die Dringlichkeit der KI-Einführung verschärft diese Herausforderung. Aktuelle Branchenstudien zeigen, dass 57 Prozent der IT-Verantwortlichen angeben, zur Einführung von KI-Initiativen gedrängt worden zu sein, bevor ihre Organisationen operativ darauf vorbereitet waren, während lediglich 14 Prozent großes Vertrauen in ihre bestehenden Data-Governance-Fähigkeiten haben. Diese Zahlen verweisen auf ein grundlegendes strukturelles Problem: Daten-Umgebungen von Unternehmen wurden nie dafür konzipiert, als einheitliche Systeme über die fragmentierten Landschaften hinweg zu funktionieren, von denen moderne KI heute abhängt.

FOMO („Fear of Missing Out“) sorgt dafür, dass KI-Initiativen rasch gestartet werden. FOMU („Fear of Messing Up“) führt hingegen häufig dazu, dass Projekte ins Stocken geraten oder sich in Bezug auf Kosten und Komplexität zunehmend ausweiten.

Mit agentischen KI-Systemen, die autonom handeln können, verschärft sich diese Problematik noch. Solche Agenten respektieren nicht automatisch Infrastruktur-Grenzen, organisatorische Silos oder geografische Domänen, sondern operieren über alle Daten und Kontexte hinweg, auf die sie Zugriff haben. Während Systeme kontinuierlich Daten über verschiedene Umgebungen hinweg erzeugen, wiederverwenden und neu interpretieren, kann Governance nicht länger allein davon abhängen, wo sich die Infrastruktur zufällig befindet. Stattdessen muss Souveränität gemeinsam mit den Daten und den sie steuernden Richtlinien bestehen bleiben, ganz unabhängig davon, wo diese Daten physisch gespeichert sind.

Datensouveränität neu denken

Dies markiert einen grundlegenden Wandel im Verständnis von Souveränität im KI-Zeitalter. Historisch haben sich Souveränitäts-Strategien vor allem auf die Kontrolle des Speicherorts der Infrastruktur konzentriert, etwa indem Daten innerhalb eines bestimmten Landes, einer bestimmten Cloud oder eines definierten Storage-Systems gehalten wurden.

Auch wenn Datenlokalität weiterhin relevant bleibt, führt KI zu deutlich dynamischeren Zugriffs-Mustern und Formen der Wiederverwendung. Daten können repliziert, vektorisiert, in Modelle eingebettet oder gleichzeitig über mehrere Regionen und operative Domänen hinweg genutzt werden.

Die Herausforderung besteht daher nicht länger ausschließlich darin zu kontrollieren, wo Daten tatsächlich gespeichert sind. Entscheidend wird vielmehr die konsistente Durchsetzung von Modellen zur Governance überall dort, wo Daten operationalisiert werden.

Genau deshalb gewinnt ein echter globaler Namespace im Zeitalter der KI an Bedeutung. Nicht, weil er das Storage-Management vereinfacht, sondern weil er die operative Grundlage dafür schafft, Daten über zunehmend fragmentierte und verteilte KI-Umgebungen hinweg konsistent zu koordinieren.

Ziel ist dabei nicht der Aufbau eines weiteren zentralen KI-Silos. Vielmehr geht es darum, eine vereinheitlichte und verwaltbare Datenschicht zu schaffen, welche die bestehende Unternehmensinfrastruktur sowie genutzte Clouds und Edge-Umgebungen nahtlos miteinander verbindet.

Implikationen für die Zukunft

Die Branche bewegt sich rasant in Richtung neuer KI-Infrastruktur-Stacks, von denen viele künftig eine zentrale Rolle im Enterprise-Computing spielen werden. Gleichzeitig macht KI ein grundlegendes Problem sichtbar, das sich nicht allein durch Infrastruktur lösen lässt: Unternehmensdaten wurden nie dafür konzipiert, als einheitliches System über die heterogenen Umgebungen hinweg zu funktionieren, auf die moderne KI heute angewiesen ist.

Unternehmen, die KI hauptsächlich als Infrastrukturprojekt betrachten, laufen daher Gefahr, die gleichen fragmentierten Betriebsmodelle wieder aufzubauen, die sie über Jahre hinweg zu modernisieren versucht haben, diesmal jedoch rund um die KI selbst.

Im KI-Zeitalter entwickelt sich ein echter globaler Namespace zu einem operativen Framework. Unternehmen werden in die Lage versetzt, Daten über Infrastruktur-Silos, Clouds, Regionen sowie Edge-Umgebungen hinweg konsistent zu vereinheitlichen, zu verwalten und operationell nutzbar zu machen.

* Der Autor: Floyd Christofferson, VP Product Marketing, Hammerspace

Aktuelles E-Book

Storage für HPC & KI

 E-Book Storage für HPC & KI
E-Book „Storage für HPC & KI“
(Bild: Storage-Insider)

Speichersysteme für das HPC und für die verschiedenen Disziplinen der KI sind hohen Anforderungen ausgesetzt. Denn sie müssen enorme Datenmengen in kürzester Zeit bereitstellen oder sammeln. Wie können diese Herausforderungen gemeistert werden?

Die Themen im Überblick:

  • Aktuelle Trends in der Künstlichen Intelligenz
  • High-Performance Computing – Explosion der Innovationen
  • Künstliche Intelligenz – nahezu Echtzeit-Datenverarbeitung

(ID:50882624)