Mobile-Menu

Arcitecta Unified Data Fabric for AI Optimiertes Datenmanagement für KI-Workloads

Von Michael Matzer 4 min Lesedauer

Anbieter zum Thema

Der australische Datenmanagement-Spezialist Arcitecta hat seine Unified Data Fabric für KI vorgestellt. Mit der Unified Data Fabric for AI führt Mediaflux Datenverwaltung, Storage, Rechenleistung und KI-Indizierung in einer Plattform zusammen.

Arcitecta Unified Data Fabric for AI soll Training und Inferenz von KI-Modellen beschleunigen.(Bild:  Midjourney / KI-generiert)
Arcitecta Unified Data Fabric for AI soll Training und Inferenz von KI-Modellen beschleunigen.
(Bild: Midjourney / KI-generiert)

Arcitecta Mediaflux ist die Software-Architektur, die auf der vorhandenen Infrastruktur des australischen Anbieters Arcitecta aufsetzt. Unified Data Fabric for AI soll Datensilos für Storage, Compute, Datenverwaltung und Indizierung abschaffen, damit KI-Modelle und -Agenten mit optimierter Leistung darauf zugreifen können. Die Entwicklung neuer Modelle soll dadurch schneller erfolgen, der Betrieb sei effizienter, und der Nutzer werde in die Lage versetzt, KI-Workloads wie etwa für Training und Inferenz flexibel an beliebigen Orten auszuführen, erläuterte CEO Jason Lohrey im Gespräch.

Bildergalerie

Metadaten und Vektoren werden bereits von der Metadaten-Engine der in Mediaflux eingebauten XODB-Datenbank verwaltet. Außerdem ließen sich nun Vektoren für die semantische Suche einbetten, was die Entdeckung von Daten im gesamten Unternehmen erleichtere. Durch die damit realisierbare RAG-Suche (Retrieval Augmented Generation) lassen sich zahlreiche weitere Datenquellen heranziehen. Das wiederum ermögliche mehrere KI-Anwendungsfälle wie etwa effiziente Zusammenfassungen und rasche Entscheidungsfindung. Lohrey sieht die Use-Cases darüber hinaus in der Krebsforschung, Pharmaforschung und der Genanalyse. „Das National Film Institute gehört zu unseren australischen Kunden“, sagte er.

Technische Grundlagen

Für Applikationen in generativer KI (GenAI) ist die Vektorsuche zunehmend von Bedeutung, um ähnliche Datenpunkte in einer gegebenen Datenmenge zu finden, indem deren Darstellungen als (dreidimensionale) Vektoren mithilfe der Parameter „Distanz“ oder „Ähnlichkeit“ verglichen werden.

Vektoren sind numerische Darstellungen unstrukturierter Daten, die von Embedding-Modellen erzeugt werden. Programme können solche Zahlen viel schneller verarbeiten als etwa alphanumerischen Text. Man verwendet also Embedding-Modelle, um Vektor-Einbettungen der Kundendaten zu erzeugen und sie dann in Storage-Systemen wie S3 Vectors oder in Architecta Mediaflux zu speichern, bevor man beschleunigte semantische Suchabfragen ausführt. Dadurch spart sich der Nutzer vektorbasierter Einbettungen gesonderte Werkzeuge oder Datenbanken, die so etwas für ihn erledigen.

Nach der Verknüpfung von Vektordaten mit einem Vektor-Index besteht die Möglichkeit, jedem Vektor ein Schlüsselwertpaar als Metadaten beizufügen. Damit können künftige Abfragen anhand einer Reihe von Kriterien effizienter arbeiten, so etwa anhand von Datum, Kategorie oder Nutzer-Präferenz. Diese Kriterien lassen sich als Metadaten in XODB ablegen. Eine ausgefeilte Metadatennutzung kann mithilfe von Richtlinien nicht nur für Governance und Compliance sorgen, sondern auch innovative Use-Cases ermöglichen.

Vorteile

„Mit dieser erweiterten Version von Mediaflux, die KI-Zwecke unterstützt, liefern wir ein revolutionäres Datengewebe, das strukturierte und unstrukturierte Daten in einen KI-bereiten Ressourcen-Pool integriert“, sagte Jason Lohrey. „Das wiederum erlaubt es unseren Kunden, bessere KI-Modelle schneller und mit unvergleichlicher Betriebseffizienz zu erzielen.“ Der Ressourcen-Pool sei agnostisch gegenüber Anbietern von Sprachmodellen und arbeite skalierbar mit allen Datentypen und KI-Modellen.

„Daraus ergibt sich, dass fragmentierte Entwicklungswerkzeuge und separate Vektor-Datenbanken überflüssig geworden sind“, erläutert Lohrey. „Der Vendor-Lock-in gehört ebenso der Vergangenheit an wie Beschränkungen hinsichtlich Datenformaten.“ Mit eingebauten Pipelines verkürze Data Fabric for AI die Zeit bis zu Erkenntnissen, denn diese Pipelines automatisieren das Erfassen, Etikettieren und Umwandeln von Daten, die Anreicherung mit Metadaten und die Unterstützung für Vektor-Einbettungen, um Kontext zu erweitern und die Genauigkeit von Modellen zu steigern.

XODB dient nicht nur als Speicher von Metadaten ohne Schemata, sondern verwaltet auch Vektoren zwischen verschiedenen Datenobjekten. Weil es die Dimensionen „räumlich“ und „zeitlich“ verstehe, könne XODB laut Lohrey nicht nur entsprechende Daten platzieren und replizieren, um KI-Modelle damit zu füttern. Dadurch lässt sich auch die in der Entwicklung und Analytik nötige Flexibilität über unterschiedlichste Datenquellen hinweg realisieren. Die Flexibilität ist für Compliance- und Governance-Zwecke erforderlich, und zwar sowohl On-Premises als auch in der Cloud.

Der oben erwähnte Index für Vektoren wird in XODB erstellt. Dadurch kann Mediaflux virtuelle Hierarchien von Daten darstellen, die auf Suchergebnissen oder Metadatenfiltern beruhen. Unterm Strich gewinnen die KI-Anwendungen und -Agenten einen „allwissenden“ Index aller Unternehmensdaten.

Rasches Marktwachstum

Data-Fabrics wie etwa Mediaflux werden von Analysten als strategisch wichtig eingestuft. Eine Marktstudie sagt für Data-Fabric-Software und -Services bis 2026 einen Jahresumsatz von 3,7 Milliarden US-Dollar voraus. Zugleich steigt auch die Bedeutung von Vektor-Datenbanken. Eine Studie der Gartner-Analysten sagt voraus, dass bis 2026 70 Prozent aller Unternehmen solche Datenbanken eingeführt haben werden.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung
Bildergalerie

Verfügbarkeit und Preisliste

Die neuen Leistungsmerkmale in Unified Data Fabric for AI werden als Teil der bestehenden Mediaflux-Plattform verfügbar. Die Lizenzierung erfolgt nach Anzahl der User, was kapazitätsbasierte Gebühren eliminiere und im Vergleich zu zusammengesetzten Werkzeugen einen Preisvorteil darstelle.

Aktuelles eBook

Storage-Software als Effizienzbooster

eBook Storage-Software als Effizienzbooster
eBook „Storage-Software als Effizienzbooster“
(Bild: Storage-Insider)

Mit der geeigneten Storage-Software kann sich ein Unternehmen einen Effizienzbooster ins Haus holen oder in der Cloud abonnieren. Dieser Booster steigert nicht nur die Performance der geschäftskritischen Anwendungen, sondern optimiert auch die Kosten der bereits installierten Speichersysteme.

Die Themen im Überblick:

  • Herausforderungen eines modernen Speichersystems
  • Methoden und Technologien effizienter Speichersysteme
  • Effizienter Speicher mit Pure Storage, AWS, Cohesity und Dell

(ID:50527743)