Wie lokalisiert man einzelne Sandkörner oder Steinhaufen in einem Datengebirge? VAST Data hat es sich zur Aufgabe gemacht, derlei Anwendungsszenarien zu kontrollieren und im Exabyte-Bereich zu skalieren. Um diesem hohen Aufwand noch effizienter gerecht zu werden, haben die „Vastronauten“ einen integrierten Metadaten-Index entwickelt: den VAST Catalog.
In der analogen wie in der digitalen Welt ist es von entscheidender Bedeutung, Informationen/Daten wiederzufinden.
Der VAST Catalog soll einerseits eine erhebliche Zeitersparnis beim Suchen und Finden gewährleisten und andererseits das Dateisystem wie eine Datenbank nutzen. KI- und ML-Anwendungen der jeweils nächsten Generation können das Dateisystem als Feature-Store nutzen.
Quellen der Wahrheit
Bei der Verarbeitung und Analyse von KI- und ML-Modellen werden Merkmale und Attribute zu jedem einzelnen Element generiert. Deren Speicherung wird in separaten Datenbanken oder Indizes geführt. Häufig enthalten diese Feature-Stores Verweise zu den ursprünglichen Objekten. Es ist wichtig, diese Abstammung intakt zu halten, vor allem falls der Feature-Store und der Datenspeicher getrennte Einheiten sind und zwei „Quellen der Wahrheit“ existieren.
Mit dem VAST Catalog lassen sich Objekt- und Dateisystem-Metadaten direkt nutzen, um Merkmale und Attribute in den Objektspeicher einzubetten. Verwendet werden S3-Tags und S3-Objekt-Metadaten.
Geschäftskritisch unstrukturierte Daten im dreistelligen Petabyte-Bereich umfassen Workloads, die von Scratch bis Homedirs, von Data Lakes bis Backup-Repositorys reichen. Ein Katalog, der alle Fragen über den Inhalt des Dateisystems beantworten kann und immer auf dem neuesten Stand ist, kostet somit nur einen Bruchteil des Verwaltungsaufwands.
Für den VAST Catalog ist keinerlei Verwaltung oder Einrichtung erforderlich; ein einfaches Upgrade auf die neueste VAST-Software-Version genügt laut Hersteller, um die Funktion nutzen zu können.
VAST verspricht eine intuitive Benutzeroberfläche für Suchvorgänge sowie die einfache Facettierung der Ergebnisse innerhalb von Sekunden
Jedes Metadatenattribut von Interesse belegt eine eigene Spalte. Komplexe Metadatenattribute (wie S3-Tags) werden in „Map“-Spalten gespeichert.
VAST-DB-Tabellen unterstützen eine Schemaentwicklung; es lassen sich also neue Spalten hinzufügen, etwa für häufig verwendete Tags. Ein möglicher Anwendungsfall ist das Scrapen von Headern für gängige Dateitypen und deren Speicherung im Index.
Im VAST Catalog lässt sich nach allen Dateien suchen, die älter als 90 Tage und größer als 10 GB sind und sich im Verzeichnis „/projects“ befinden.
Gefunden werden zudem alle Dateien, die in den letzten sieben Tagen von einem bestimmten Nutzer erstellt wurden sowie sämtliche Objekte mit dem Tag „processed und value = false“.
Es lässt sich eine Rangliste der Nutzer erstellen.
Um die Tabelle auf dem neuesten Stand zu halten, ist eine skalierbare Engine erforderlich, die Änderungen erkennen und einfügen kann, ohne die System-Performance zu beeinträchtigen. Hier kommt VASTs Snapshot- und Replikations-Engine zum Einsatz, basierend auf einem vom Nutzer definierten Zeitplan, der bis zu 15 Sekunden betragen kann. Dies bedeutet parallel, dass VAST im Vergleichsbedarf über historische Versionen des Katalogs verfügt.
Die CLI bietet dieselben Funktionen wie die Benutzeroberfläche und ermöglicht das Pipelining von Befehlen.
Die RESTful-API steht für alle administrativen Aspekte zur Verfügung; das neue PythonSDK ermöglicht eine direkte Interaktion mit der Datenbank, in welcher der VAST Catalog gespeichert ist. Dadurch lassen sich anspruchsvollere Anwendungen erstellen und in KI- und ML-Pipelines integrieren.
VAST stellt den Katalog sowie benutzerdefinierte Datenbanktabellen für Open-Source-Query-Engines zur Verfügung. Derzeit ist Unterstützung für ApacheSpark und Trino durch die Verwendung eines Storage-Connectors gegeben, der auf diesen Engines zum Einsatz kommt.
Aktuelles eBook
Alle Daten im Griff – der Weg zum passenden Data-Management
eBook „Data-Management“
(Bild: Storage-Insider)
Daten nur zum Selbstzweck zu speichern, kann sich heute praktisch kein Unternehmen mehr leisten. Um den Überblick zu behalten und Nutzen aus den gespeicherten Daten zu ziehen, wird ein entsprechendes Datenmanagement benötigt. Unser neues eBook erläutert detailliert, worauf es dabei ankommt, welche Ansätze es gibt und wo Potenziale zur Verbesserung liegen.
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.