Mobile-Menu

Verdoppelung der Schreibleistung VAST Data präsentiert Version 5.2 seiner Data Plattform

Von Michael Matzer 5 min Lesedauer

Anbieter zum Thema

VAST Data, Anbieter einer Storage-Plattform für anspruchsvolle KI- und Data-Analytics-Anwendungen, hat kürzlich die neue Version 5.2 seiner VAST-Software mit bedeutenden Verbesserungen auf der gesamten Plattform vorgestellt.

Mittlerweile hat VAST Data alle Komponenten seiner Datenplattform generalüberholt und auf KI-Workloads ausgerichtet: DataStore, DataEngine, DataSpace und DataBase.(Bild:  VAST Data)
Mittlerweile hat VAST Data alle Komponenten seiner Datenplattform generalüberholt und auf KI-Workloads ausgerichtet: DataStore, DataEngine, DataSpace und DataBase.
(Bild: VAST Data)

VAST für Hyperscaler mit EBoxes

Die auffälligste Neuerung in VAST 5.2 ist die Unterstützung einer neuen Hardware-Konfiguration, die VAST als EBoxes analog zu CBoxes und DBoxes bereitstellt. Auf jeder x86-EBox laufen ein CNode-Container, der Benutzeranfragen bedient und Daten wie ein dedizierter CNode verwaltet, sowie DNode-Container, die die SSDs der EBox mit dem NVMe-Fabric des Clusters verbinden. Genau wie in einem VAST-Cluster mit CBoxes und DBoxes bindet jeder CNode im Cluster jede SSD im Cluster ein.

Bildergalerie

Die EBox-Architektur soll es ermöglichen, die VAST Data Platform in Umgebungen zu betreiben, die bisher keine hochverfügbaren DBoxes nutzen wollten oder konnten. Dazu gehören Hyperscaler, die Tausende einer sehr spezifischen Serverkonfiguration haben, und Cloud-Anbieter, die nur Instanzen virtueller Maschinen anbieten. Sie ermöglicht es VAST auch, mit Unternehmen wie Supermicro und Cisco zusammenzuarbeiten, um die VAST Data Platform für Kunden bereitzustellen, die Server dieser Anbieter verwenden.

EBox-Cluster verwenden das DBox-HA-Datenlayout und können daher mit mindestens elf EBoxes pro Cluster weiterhin EBox-Ausfälle verarbeiten. VAST bringt die EBox-Architektur auch in die Public Cloud in Version 5.2, mit voll funktionsfähigen VAST-Clustern auf der Google Cloud Platform (GCP). Weitere Details hierzu sollen in einem kommenden EBox-Blogpost folgen.

Erneute Verdopplung der Schreibleistung

Bereits bei Version 5.1 haben die Entwickler die Spiegelung des Schreibpuffers in SCM auf doppelte Paritätslöschcodes umgestellt. Diese Änderung, zusammen mit einigen anderen Optimierungen, hat die Schreibleistung nahezu verdoppelt.

In 5.2 nutzt VAST die Tatsache, dass es viel mehr SSDs mit hoher Kapazität (QLC) als SSDs mit geringer Kapazität (SCM) gibt, indem große Write-Bursts, wie das Dumping von Checkpoints im KI-Modelltraining, an einen Abschnitt von QLC geleitet werden.

Durch paralleles Schreiben auf SCM und QLC wird die Schreibleistung gegenüber v5.1 noch einmal ungefähr verdoppelt. Da nur große Write-Bursts an einen kleinen Prozentsatz des QLC in einem Cluster gesendet werden, ist der Einfluss auf die Abnutzung des Flash-Speichers unbedeutend. Insgesamt hat VAST eine vierfache Verbesserung der Schreibleistung erreicht, und da dies alles auf die Software zurückzuführen ist, wird jeder VAST-Kunde eine Leistungssteigerung erleben, ohne auf die nächste Hardware-Version warten zu müssen.

Synchrone Replikation für Aktiv-Aktiv-Cluster

Für Anwendungen, bei denen Datenverluste nicht toleriert werden können (etwa im Banking), ist nur der Goldstandard der synchronen Replikation geeignet. Sobald ein Paar VAST-Cluster für die synchrone Replikation eines S3-Buckets konfiguriert ist, werden alle Daten, die in diesen Bucket geschrieben werden, auf beiden Clustern auf den anderen Cluster des Paares repliziert und vom Remote-Cluster bestätigt, bevor sie dem Client bestätigt werden.

Cloud-Provider können ein synchron replizierendes Cluster-Paar verwenden, um für ihre Objektspeicherangebote eine regionale statt einer zonalen Verfügbarkeit bereitzustellen, während Unternehmenskunden eine hundertprozentige Verfügbarkeit ihrer Anwendungen erreichen können, selbst wenn ihre Rechenzentren nur 99,9999 Prozent bieten.

Datenbankreplikation

VAST 5.2 erweitert auch die native asynchrone Replikation von VAST zur Unterstützung der nativen Tabellen von VAST. Wenn ein VAST-Cluster so konfiguriert ist, dass er Ordner mit VAST-Tabellen repliziert, werden diese Tabellen zwischen den beiden Clustern mit vollständiger Transaktionskonsistenz repliziert.

Herkömmliche Datenbanksysteme, die auf herkömmlichen Speichern ausgeführt werden, können Momentaufnahmen der Volumes oder Dateien erstellen, die die Tabellen einer Datenbank enthalten. Die Datenbank-Software speichert Daten und Updates jedoch im Arbeitsspeicher zwischen, anstatt alle Änderungen der Reihe nach auf der Festplatte zu speichern.

Dies bedeutet, dass die Daten in diesen Dateien nicht intern konsistent sind, da nur einige Tabellenaktualisierungen im Speicher und andere nur im Arbeitsspeicher der Datenbank gespeichert wurden. VAST bezeichnet diese Datenbank-Snapshots euphemistisch als „absturzkonsistent“, da die Daten in diesen Snapshots nur so konsistent sind, wie sie es bei einem Absturz des Datenbankservers gewesen wären.

Um einen Snapshot einer herkömmlichen Datenbank in einem konsistenten Zustand zu erhalten, ist eine gewisse Koordination zwischen dem Datenbankserver und dem Speichersystem erforderlich. Ein Skript oder der Windows VSS (Volume Shadow Copy Service) setzt die Datenbank still, indem Aktualisierungen aus dem Speicher in den Speicher übertragen werden, bevor der Snapshot erstellt wird.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Als einheitliche Datenplattform integriert VAST die Datenbankverwaltung sowie Snapshot- und Replikationsprozesse in ein kohärentes Ganzes. Wenn ein VAST-Cluster einen Snapshot eines Ordners erstellt, der VAST-Tabellen enthält, enthält der Snapshot eine konsistente Ansicht dieser Tabellen. Alle Transaktionen, die zum Zeitpunkt des Snapshots abgeschlossen waren, werden in den Snapshot aufgenommen, während Aktualisierungen von Transaktionen, die zum Zeitpunkt der Snapshot-Erstellung noch nicht abgeschlossen waren, nicht an einen Remote-Standort übertragen oder repliziert werden.

S3 Event Publishing mit Apache Kafka

Die VAST DataEngine stellt VAST-Benutzern alle Tools zur Verfügung, die sie zur Implementierung ereignisgesteuerter Workflows benötigen, die Funktionen automatisch auf der Grundlage von Ereignissen wie Änderungen am Inhalt eines Buckets oder Ordners ausführen. In 5.2 liefert VAST mit dem S3 Event Publishing den ersten Schritt in dieser Workflow-Automatisierung.

Wenn VAST-Kunden das Event Publishing für einen oder mehrere ihrer Ordner konfigurieren, sendet ihr VAST-Cluster einen Eintrag an ein bestimmtes Apache-Kafka-Thema. In Version 5.2 muss sich dieses Thema in einem externen Kafka-Cluster befinden, und die Funktionen müssen das Kafka-Thema abonnieren. In den nächsten Quartalsversionen wird die VAST DataEngine einen mit der Kafka-API kompatiblen Event Broker und die Funktionalität zur Datenverarbeitung hinzufügen.

Bildergalerie

Globale Namespace-Cache-Steuerung

Mit VAST 5.1 wurde der globale VAST-Namespace eingeführt, der es VAST-Kunden ermöglichen soll, globale Ordner über mehrere VAST-Cluster hinweg mit vollständigem Lese- und Schreibzugriff im Kern, am Rand und in der Cloud darzustellen – mit strikter Konsistenz, um sicherzustellen, dass Anwendungen auf der ganzen Welt die neuesten Daten erhalten.

Für jeden globalen Ordner enthält der Ursprungscluster eine vollständige Kopie der Daten des Ordners, und Satellitencluster verwenden ihre lokale SSD-Kapazität, um die Daten beim Zugriff zwischenzuspeichern. Durch das Zwischenspeichern von Daten beim Zugriff ist gewährleistet, dass nur diejenigen Daten übertragen werden, auf die Benutzer oder Anwendungen an diesem Satelliten zugreifen. Das ist zwar effizient, bedeutet aber auch, dass Anwendungen warten müssen, bis die Daten über die WAN-Verbindung zwischen den Clustern übertragen wurden.

VAST 5.2 bietet nun Nutzer die Kontrolle darüber, wie Satellitencluster Daten vom Ursprung abrufen. Ein VAST-Administrator kann einen „Satelliten“ dazu zwingen, alle Metadatenänderungen oder alle Daten- und Metadatenänderungen in einem Ordner vorab abzurufen. Wenn ein VAST-Kunde einen Workflow mit einer Phase vor Ort und einer Folgestufe in der Cloud hat, kann er den Ordner in seinem Cloud-Cluster so einstellen, dass Daten vorab abgerufen werden, wodurch die Verzögerung durch das Aufwärmen des Cache vermieden wird.

Aktuelles eBook

Storage-Software als Effizienzbooster

eBook Storage-Software als Effizienzbooster
eBook „Storage-Software als Effizienzbooster“
(Bild: Storage-Insider)

Mit der geeigneten Storage-Software kann sich ein Unternehmen einen Effizienzbooster ins Haus holen oder in der Cloud abonnieren. Dieser Booster steigert nicht nur die Performance der geschäftskritischen Anwendungen, sondern optimiert auch die Kosten der bereits installierten Speichersysteme.

Die Themen im Überblick:

  • Herausforderungen eines modernen Speichersystems
  • Methoden und Technologien effizienter Speichersysteme
  • Effizienter Speicher mit Pure Storage, AWS, Cohesity und Dell

(ID:50255878)