Mobile-Menu

VAST Catalog: universell nutzbare Metadaten Ein Dateisystem als Datenbank

Von Matthias Breusch 3 min Lesedauer

Anbieter zum Thema

Wie lokalisiert man einzelne Sandkörner oder Steinhaufen in einem Datengebirge? VAST Data hat es sich zur Aufgabe gemacht, derlei Anwendungsszenarien zu kontrollieren und im Exabyte-Bereich zu skalieren. Um diesem hohen Aufwand noch effizienter gerecht zu werden, haben die „Vastronauten“ einen integrierten Metadaten-Index entwickelt: den VAST Catalog.

In der analogen wie in der digitalen Welt ist es von entscheidender Bedeutung, Informationen/Daten wiederzufinden.(Bild:  frei lizenziert /  Pixabay)
In der analogen wie in der digitalen Welt ist es von entscheidender Bedeutung, Informationen/Daten wiederzufinden.
(Bild: frei lizenziert / Pixabay)

Der VAST Catalog soll einerseits eine erhebliche Zeitersparnis beim Suchen und Finden gewährleisten und andererseits das Dateisystem wie eine Datenbank nutzen. KI- und ML-Anwendungen der jeweils nächsten Generation können das Dateisystem als Feature-Store nutzen.

Quellen der Wahrheit

Bei der Verarbeitung und Analyse von KI- und ML-Modellen werden Merkmale und Attribute zu jedem einzelnen Element generiert. Deren Speicherung wird in separaten Datenbanken oder Indizes geführt. Häufig enthalten diese Feature-Stores Verweise zu den ursprünglichen Objekten. Es ist wichtig, diese Abstammung intakt zu halten, vor allem falls der Feature-Store und der Datenspeicher getrennte Einheiten sind und zwei „Quellen der Wahrheit“ existieren.

Mit dem VAST Catalog lassen sich Objekt- und Dateisystem-Metadaten direkt nutzen, um Merkmale und Attribute in den Objektspeicher einzubetten. Verwendet werden S3-Tags und S3-Objekt-Metadaten.

Geschäftskritisch unstrukturierte Daten im dreistelligen Petabyte-Bereich umfassen Workloads, die von Scratch bis Homedirs, von Data Lakes bis Backup-Repositorys reichen. Ein Katalog, der alle Fragen über den Inhalt des Dateisystems beantworten kann und immer auf dem neuesten Stand ist, kostet somit nur einen Bruchteil des Verwaltungsaufwands.

Funktionen und Kriterien

  • Für den VAST Catalog ist keinerlei Verwaltung oder Einrichtung erforderlich; ein einfaches Upgrade auf die neueste VAST-Software-Version genügt laut Hersteller, um die Funktion nutzen zu können.
  • VAST verspricht eine intuitive Benutzeroberfläche für Suchvorgänge sowie die einfache Facettierung der Ergebnisse innerhalb von Sekunden
  • Jedes Metadatenattribut von Interesse belegt eine eigene Spalte. Komplexe Metadatenattribute (wie S3-Tags) werden in „Map“-Spalten gespeichert.
  • VAST-DB-Tabellen unterstützen eine Schemaentwicklung; es lassen sich also neue Spalten hinzufügen, etwa für häufig verwendete Tags. Ein möglicher Anwendungsfall ist das Scrapen von Headern für gängige Dateitypen und deren Speicherung im Index.
  • Im VAST Catalog lässt sich nach allen Dateien suchen, die älter als 90 Tage und größer als 10 GB sind und sich im Verzeichnis „/projects“ befinden.
  • Gefunden werden zudem alle Dateien, die in den letzten sieben Tagen von einem bestimmten Nutzer erstellt wurden sowie sämtliche Objekte mit dem Tag „processed und value = false“.
  • Es lässt sich eine Rangliste der Nutzer erstellen.
  • Um die Tabelle auf dem neuesten Stand zu halten, ist eine skalierbare Engine erforderlich, die Änderungen erkennen und einfügen kann, ohne die System-Performance zu beeinträchtigen. Hier kommt VASTs Snapshot- und Replikations-Engine zum Einsatz, basierend auf einem vom Nutzer definierten Zeitplan, der bis zu 15 Sekunden betragen kann. Dies bedeutet parallel, dass VAST im Vergleichsbedarf über historische Versionen des Katalogs verfügt.
  • Die CLI bietet dieselben Funktionen wie die Benutzeroberfläche und ermöglicht das Pipelining von Befehlen.
  • Die RESTful-API steht für alle administrativen Aspekte zur Verfügung; das neue PythonSDK ermöglicht eine direkte Interaktion mit der Datenbank, in welcher der VAST Catalog gespeichert ist. Dadurch lassen sich anspruchsvollere Anwendungen erstellen und in KI- und ML-Pipelines integrieren.
  • VAST stellt den Katalog sowie benutzerdefinierte Datenbanktabellen für Open-Source-Query-Engines zur Verfügung. Derzeit ist Unterstützung für ApacheSpark und Trino durch die Verwendung eines Storage-Connectors gegeben, der auf diesen Engines zum Einsatz kommt.

Aktuelles eBook

Alle Daten im Griff – der Weg zum passenden Data-Management

eBook Data-Management
eBook „Data-Management“
(Bild: Storage-Insider)

Daten nur zum Selbstzweck zu speichern, kann sich heute praktisch kein Unternehmen mehr leisten. Um den Überblick zu behalten und Nutzen aus den gespeicherten Daten zu ziehen, wird ein entsprechendes Datenmanagement benötigt. Unser neues eBook erläutert detailliert, worauf es dabei ankommt, welche Ansätze es gibt und wo Potenziale zur Verbesserung liegen.

Die Themen im Überblick:

  • Data-Management lokal und in der Private Cloud
  • Data-Management in der Cloud
  • Globales Data-Management

(ID:49297244)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung