Suchen

Dateisysteme für große Datenmengen: MooseFS, BeeGFS, Lustre, Google File System, XtreemFS Datenmengen im Petabyte-Umfang effektiv speichern – Teil 3

| Autor / Redakteur: Thomas Joos / Dr. Jürgen Ehneß

Um Datenmengen im großen Umfang zu speichern, werden häufig Dateisysteme eingesetzt, die sich über mehrere Computer ausdehnen. Wir stellen nachfolgend einige weitere Systeme vor, die in den beiden ersten Teilen dieser Reihe noch nicht erwähnt wurden.

Firma zum Thema

Die Datenmengen steigen – und mit ihnen der Bedarf an geeigneten Dateisystemen.
Die Datenmengen steigen – und mit ihnen der Bedarf an geeigneten Dateisystemen.
(Bild: © garrykillian - adobe.stock.com)

Es gibt zahlreiche Dateisysteme, die in der Lage sind, Daten im Petabyte-Umfang nicht nur zu speichern, sondern Anwendern auch leistungsstark und effektiv zur Verfügung zu stellen. Vor allem, wenn hauptsächlich sehr große Dateien oder unstrukturierte Daten gespeichert werden sollen, sind verteilte Dateisysteme eine gute Grundlage.

MooseFS – Open-Source-POSIX-kompatibles verteiltes Dateisystem

Bei MooseFS handelt es sich um ein fehlertolerantes, verteiltes Dateisystem. Auch hier lassen sich die Daten auf mehrere Server und auch Rechenzentren in einem Cluster verteilen. MooseFS verhält sich wie jedes andere Unix-ähnliche Dateisystem. Es ist also problemlos möglich, Arbeitsstationen, Workloads und Server an das Dateisystem anzubinden. MooseFS unterstützt auch POSIX-Dateiattribute, zum Beispiel Berechtigungen, den letzten Zugriff und Änderungszeiten. Links und Verknüpfungen werden in MooseFS ebenfalls unterstützt.

Der Zugriff auf das Dateisystem kann auf Basis von IP-Adressen und -Bereichen oder mit Berechtigungen erfolgen. Das Dateisystem legt mehrere Kopien der Daten auf getrennten physischen Computern ab. Das erhöht die Verfügbarkeit und beschleunigt die Zugriffe. Die Kapazität des Speichersystems ist durch das Hinzufügen neuer Knoten oder neuer Festplatten skalierbar. Das Dateisystem verfügt auch über einen Papierkorb, aus dem gelöschte Dateien wiederhergestellt werden können. Schnappschüsse von Dateien sind mit MooseFS auch während des Schreibens oder Lesens auf Dateien möglich.

BeeGFS – Dateisystem für Hochleistungsrechner

Das BeeGFS-Dateisystem steht kostenlos zur Verfügung. Wer das System produktiv einsetzt, kann professionellen Support lizenzieren. In den meisten Fällen wird BeeGFS als fertige Storage-Lösung von Partnern des Systems geliefert. Auch BeeGFS verteilt Daten transparent für Benutzer und Workloads über mehrere Server, die zu einem Storage-Cluster zusammengefasst werden.

Auch BeeGFS zeichnet sich dadurch aus, dass die Erhöhung der Anzahl von Knoten im Cluster und der Platten auf den Knoten die Leistung und Kapazität des Dateisystems auf das benötigte Niveau skalieren kann. Das ist ein Bereich, der für nahezu alle parallelen Dateisysteme gilt. Genau hier ist es für Unternehmen sinnvoll zu testen, ob das entsprechende Dateisystem für das eigene Netzwerk sinnvoll skaliert werden kann. Systeme wie BeeGFS können von kleinen Clustern bis hin zu Systemen mit Tausenden von Knoten skaliert werden.

Lustre – Dateisystem der Supercomputer

Lustre ist ein weiteres paralleles Dateisystem, das vor allem für große Cluster mit extrem großen Datenmengen optimiert ist (High-Performance-Computing, HPC). Im Fokus des Dateisystems steht eine extrem hohe Leistungsfähigkeit. Einige der schnellsten Supercomputer der Welt setzen auf Lustre. Natürlich ist das System auch für kleine Netzwerke und mittlere oder kleine Cluster nutzbar. Das Dateisystem steht als Open Source (GPL2) zur Verfügung.

Seit Dezember 2019 ist die neue Version 2.13.0 erhältlich, die über einige Neuerungen verfügt, mit denen die Leistung des Dateisystems weiter ansteigt. Mit Persistent Client Cache kann Luste lokalen Datenspeicher von Clients als Cache nutzen. Sinnvoll ist das, wenn hier zum Beispiel schneller Flash-Speicher verbaut ist. Der Sinn dahin ist, dass Clients Daten lokal speichern, zum Beispiel auf Datenträgern mit dem Dateisystem ext4. Das erhöht weiter die Leistung des Systems, da dieser Speicher direkt in das Dateisystem integriert wird. Dadurch können auch andere Clients im Netzwerk auf die Daten zugreifen, die auf dem entsprechenden entfernten Client gespeichert sind.

Google File System – Dateisystem der Google-Websuche

Das Google File System (GFS, GoogleFS) ist ebenfalls ein linuxbasiertes, verteiltes Dateisystem, das von Google 2003 veröffentlicht wurde. Das System wird auch intern von Google genutzt, zum Beispiel bei der Websuche. Das Dateisystem kann sehr große Dateien und Datenmengen speichern. Das Dateisystem ist für einen hohen Datendurchsatz optimiert. Wie bei anderen verteilten Dateisystemen besteht ein Storage-System, das auf GFS setzt, aus verschiedenen Clusterknoten.

Ein Knoten wird zum Master, die anderen Knoten stellen die Chunkserver dar. Auf den Chunkservern werden die Daten gespeichert. Insgesamt lassen sich mehrere tausend Knoten zusammenfassen. Auf dem Masterserver werden die Metadaten gespeichert. Der Server steuert darüber hinaus die Zugriffe auf die Daten. Generell stellt so eine Struktur ein Problem dar, weil die Skalierbarkeit und die Verfügbarkeit des Clusters vom Masterknoten abhängen. Google hat diesbezüglich allerdings noch keine Probleme festgestellt.

Einige Google-Mitarbeiter, die bei der Entwicklung von GFS mitgearbeitet haben, sind auch an der Entwicklung von Nutanix Distributed Filesystem beteiligt. Das System orientiert sich generell an GFS, entspricht vom Funktionsumfang aber eher VMware vSAN.

XtreemFS – Open-Source-Dateisystem für Big Data

Ein weiterer Vertreter verteilter Dateisysteme ist das Open-Source-Dateisystem XtreemFS. XtreemFS erfordert keine spezielle Hardware oder Kernelmodule. Das System kann auf Linux, Windows und macOS eingesetzt werden. Der Vorteil des Systems ist, dass es sehr schnell einsatzbereit ist, wie die Quickstart-Anleitung für Linux zeigt.

XtreemFS repliziert Daten über mehrere Server, die auch auf verschiedenen Rechenzentren weltweit verteilt sein können. Für jede replizierte Datei führt XtreemFS eine Liste von Replikaten, die Administratoren die Kontrolle darüber gibt, wo die Replikate gespeichert werden sollen. Dadurch lassen sich auch eigene Richtlinien erstellen. Wenn eine replizierte Datei geöffnet wird, wählt XtreemFS automatisch eine primäre Replik für diese Datei aus. Fällt die primäre Replik aus, übernimmt nach einer kurzen Failover-Periode automatisch eines der Backup-Replikate. Zusätzlich bietet XtreemFS eine schreibgeschützte Replikation.

Dieser Replikationsmodus arbeitet mit unveränderlichen Dateien und unterstützt eine große Anzahl von Replikaten. Eine XtreemFS-Installation kann auf Tausende von Speicher- und Metadaten-Servern skaliert werden. Unternehmen können mit XtreemFS eine eigene Speicher-Cloud aufbauen oder XtreemFS aus der Cloud heraus für den Zugriff auf externe Speicherressourcen nutzen.

(ID:46533575)

Über den Autor

 Thomas Joos

Thomas Joos

Freiberuflicher Autor und Journalist