Suchen

Dateisysteme für große Datenmengen: Quantum StorNext FS, HDFS, HPE MapR, Qumolo QF2, Microsoft ReFS Datenmengen im Petabyte-Umfang effektiv speichern – Teil 2

| Autor / Redakteur: Thomas Joos / Jürgen Ehneß

Im ersten Teil dieses Beitrags haben wir bereits einige Dateisysteme gezeigt, mit denen sich auch sehr große Datenmengen im Petabyte-Umfang speichern lassen. Es gibt aber weitere Systeme, die wir in diesem zweiten Teil der Reihe näher beleuchten.

Firmen zum Thema

Zum Speichern von Big Data benötigt man entsprechend dimensionierte Dateisysteme.
Zum Speichern von Big Data benötigt man entsprechend dimensionierte Dateisysteme.
(Bild: © garrykillian - AdobeStock)

Immer mehr Unternehmen aller Größenordnung benötigen Speicherplatz im Petabyte-Umfang. Hier sind standardmäßige Dateisysteme nicht mehr geeignet, da bei ihnen die Leistung für das Schreiben und Lesen nicht zur Verfügung steht. Im ersten Teil „Datenmengen im Petabyte-Umfang effektiv speichern“ haben wir bereits IBM General Parallel File System, GlusterFS, Isilon OneFS Distributed Filesystem und Operating System, CephFS und ZFS behandelt.

Dateisysteme wie GPFS, GlusterFS, HDFS, MapR, StorNext FS, Qumolo, CephFS, ZFS und einige andere sind dafür optimiert, vor allem große Datenmengen effektiv speichern zu können und auch eine hohe Leistung beim Zugriff zu ermöglichen. Die Dateisysteme werden auf den entsprechenden Storage-Lösungen betrieben und ermöglichen natürlich über das Netzwerk den problemlosen Zugriff von Client-Betriebssystemen wie Windows, Linux, macOS, Unix und anderen.

Quantum StorNext FS

Das StorNext File System von Quantum ist ein weiteres Dateisystem, das für das Speichern großer Datenmengen optimiert ist. Das parallele Dateisystem verfügt über eine integrierte Datenverwaltungs-Software, die dafür optimiert wurde, auch unstrukturierte Daten zu verwalten. Quantum ist bekannt für Scale-Out Storage und Storage-Lösungen für das Speichern von großen Datenmengen.

StorNext kann durch seine parallele Struktur auch in Rechenzentren eingesetzt werden, bei denen Speicher-Cluster über mehrere Rechenzentren geographisch verteilt sind. Das hilft Teams aus verschiedenen Standorten, an großen Dateien gemeinsam zu arbeiten. Das protokollübergreifende Sperren für gemeinsam genutzte Dateien über SAN, NFS und SMB ist eine Funktion von StorNext, wenn Daten auf Systemen sowohl via Fibre Channel als auch über Ethernet angebunden sind.

StorNext kann Daten automatisch über mehrere Speicherebenen und Richtlinien verschieben, ähnlich wie die anderen Systeme in dieser Artikelreihe. Das Verschieben erfolgt transparent, und die Anwender können ohne Unterbrechung dauerhaft auf die Dateien zugreifen. Dieses Storage-Tiering ermöglicht es, Daten mit weniger häufigem Zugriff (Cold Data) auf kostengünstigsten Speicher zu verschieben. Häufig verwendete Dateien (Hot Data) werden wiederum auf sehr schnellen Datenspeichern abgelegt, zum Beispiel auf Flash-Speichern (SSD). Alle Speicher werden dadurch effektiv genutzt.

Hadoop File System – HDFS

Das Dateisystem HDFS wurde als verteiltes Dateisystem vor allem aus dem Big-Data-Bereich bekannt und wird häufig bei der Big-Data-Plattform Hadoop eingesetzt. HDFS hat den Vorteil, dass es zum Beispiel auch gemeinsam mit SQL Server 2019 eingesetzt werden kann. Die meisten Analyselösungen, die große Datenmengen nutzen, unterstützen auch HDFS.

Auch in Microsoft Azure kann HDFS genutzt werden. Azure Data Lake ist zum Beispiel kompatibel mit dem Hadoop File System (HDFS). Beim Betrieb eigener Hadoop-Cluster können Unternehmen auf Azure Data Lake als Datenspeicher zugreifen und hier HDFS anbinden. Neben den großen Speichermöglichkeiten ist auch der Datendurchsatz entsprechend hoch. HDFS kann aber auch auf älterer Standard-Hardware eingesetzt werden. Dadurch lassen sich auch mit vorhandener Hardware schnelle Datenspeicher zur Verfügung stellen. Das System verfügt über eine integrierte Hochverfügbarkeit. Da gespeicherte Daten auf mehreren Knoten gespeichert werden, kann der Ausfall einzelner Knoten kompensiert werden.

HPE MapR XD Distributed File and Object Store mit MapR FS

MapR FS/XD ist ein verteiltes Dateisystem für Cluster, das von HPE vertrieben wird. MapR FS/XD steht im Big-Data-Bereich natürlich im direkten Mitbewerb zu HDFS. Das Dateisystem der MapR-Distribution ermöglicht das Aktualisieren von Dateien. Im Vergleich dazu kann HDFS im Grunde genommen nur Daten an eine Datei anhängen, während MapR FS/XD eine Datei mit jedem beliebigen Offset schreiben kann. Auch Datenbanksysteme können auf MapR FS/XD setzen. Wir widmen MapR einen eigenen Artikel.

Qumulo QF2

Das relative neue Unternehmen Qumulo bietet mit File Fabric 2 (QF2) ein Dateisystem, das ebenfalls in der Lage ist, sehr große Datenmengen zu speichern. Ähnlich wie HDFS unterstützt auch QF2 die Installation auf eigener Hardware und ist hier bezüglich der Kompatibilität sehr flexibel. QF2 ist auch in der Lage, Quotas einzubinden, und kann Cluster in verteilten Rechenzentren zur Verfügung stellen.

Der generelle (vermeintliche) Nachteil von QF2 ist sicherlich das geringe Alter des Unternehmens und des Systems. Hier können andere Hersteller wesentlich mehr Erfahrung in die Waagschale werfen. Auf der anderen Seite setzen bereits die bekanntesten Filmstudios für Animationsfilme auf Qumulo. Mehr zu diesem System ist im Beitrag „Qumulo bringt skalierbares File-System für große Volumina“ zu finden.

Storage Spaces Direct mit ReFS

Generell ist auch das Microsoft Resilent File System (ReFS) dazu in der Lage, mehrere Petabyte an Daten zu speichern. ReFS für sich alleine stellt kein verteiltes Dateisystem dar. Zusammen mit Windows Server 2016/2019 kann über Storage Spaces Direct aber ein virtueller Speicher gebildet werden, der auch über verteilte Rechenzentren betrieben werden kann.

Der Vorteil von Storage Spaces Direct (S2D) besteht zum Beispiel auch darin, dass sich das System nahtlos in Microsoft-Netzwerke integriert, mit Microsoft-Technologien verwalten lässt und kostenlos zu den Bordmitteln von Windows Server 2016 und Windows Server 2019 in den Datacenter-Editionen gehört. Unternehmen wie zum Beispiel Thomas-Krenn bieten vorgefertigte Lösungen an, mit denen auch kleine Unternehmen auf solche Systeme setzen können.

Fazit

Es gibt zahlreiche Systeme, mit denen die Speicherung von Daten im Petabyte-Umfang bewältigt werden können. Welches System das am besten geeignete ist, hängt von den Anforderungen des Unternehmens ab. In jedem Fall lohnen sich ein Test und ein Vergleich. Wer intern auf Microsoft-Lösungen setzt, sollte sich die Möglichkeiten von Storage Spaces Direct ansehen. Unternehmen, die eher auf Linux setzen, nutzen natürlich vor allem andere Lösungen. Werden im Netzwerk bereits Big Data eingesetzt oder andere Datensysteme zur Analyse genutzt, kann es sinnvoll sein, das hier eingesetzte Dateisystem auch für andere Bereiche zu nutzen.

(ID:46387903)

Über den Autor

 Thomas Joos

Thomas Joos

Freiberuflicher Autor und Journalist