Datenmengen im Petabyte-Umfang effektiv speichern

Dateisysteme für große Datenmengen: MooseFS, BeeGFS, Lustre, Google File System, XtreemFS Datenmengen im Petabyte-Umfang effektiv speichern – Teil 3

11.06.2020 Von Thomas Joos 4 min Lesedauer

Anbieter zum Thema

Um Datenmengen im großen Umfang zu speichern, werden häufig Dateisysteme eingesetzt, die sich über mehrere Computer ausdehnen. Wir stellen nachfolgend einige weitere Systeme vor, die in den beiden ersten Teilen dieser Reihe noch nicht erwähnt wurden.

Die Datenmengen steigen – und mit ihnen der Bedarf an geeigneten Dateisystemen.(Bild: © garrykillian - adobe.stock.com) — Die Datenmengen steigen – und mit ihnen der Bedarf an geeigneten Dateisystemen.
(Bild: © garrykillian - adobe.stock.com)

Es gibt zahlreiche Dateisysteme, die in der Lage sind, Daten im Petabyte-Umfang nicht nur zu speichern, sondern Anwendern auch leistungsstark und effektiv zur Verfügung zu stellen. Vor allem, wenn hauptsächlich sehr große Dateien oder unstrukturierte Daten gespeichert werden sollen, sind verteilte Dateisysteme eine gute Grundlage.

MooseFS – Open-Source-POSIX-kompatibles verteiltes Dateisystem

Bei MooseFS handelt es sich um ein fehlertolerantes, verteiltes Dateisystem. Auch hier lassen sich die Daten auf mehrere Server und auch Rechenzentren in einem Cluster verteilen. MooseFS verhält sich wie jedes andere Unix-ähnliche Dateisystem. Es ist also problemlos möglich, Arbeitsstationen, Workloads und Server an das Dateisystem anzubinden. MooseFS unterstützt auch POSIX-Dateiattribute, zum Beispiel Berechtigungen, den letzten Zugriff und Änderungszeiten. Links und Verknüpfungen werden in MooseFS ebenfalls unterstützt.

Der Zugriff auf das Dateisystem kann auf Basis von IP-Adressen und -Bereichen oder mit Berechtigungen erfolgen. Das Dateisystem legt mehrere Kopien der Daten auf getrennten physischen Computern ab. Das erhöht die Verfügbarkeit und beschleunigt die Zugriffe. Die Kapazität des Speichersystems ist durch das Hinzufügen neuer Knoten oder neuer Festplatten skalierbar. Das Dateisystem verfügt auch über einen Papierkorb, aus dem gelöschte Dateien wiederhergestellt werden können. Schnappschüsse von Dateien sind mit MooseFS auch während des Schreibens oder Lesens auf Dateien möglich.

BeeGFS – Dateisystem für Hochleistungsrechner

Das BeeGFS-Dateisystem steht kostenlos zur Verfügung. Wer das System produktiv einsetzt, kann professionellen Support lizenzieren. In den meisten Fällen wird BeeGFS als fertige Storage-Lösung von Partnern des Systems geliefert. Auch BeeGFS verteilt Daten transparent für Benutzer und Workloads über mehrere Server, die zu einem Storage-Cluster zusammengefasst werden.

Auch BeeGFS zeichnet sich dadurch aus, dass die Erhöhung der Anzahl von Knoten im Cluster und der Platten auf den Knoten die Leistung und Kapazität des Dateisystems auf das benötigte Niveau skalieren kann. Das ist ein Bereich, der für nahezu alle parallelen Dateisysteme gilt. Genau hier ist es für Unternehmen sinnvoll zu testen, ob das entsprechende Dateisystem für das eigene Netzwerk sinnvoll skaliert werden kann. Systeme wie BeeGFS können von kleinen Clustern bis hin zu Systemen mit Tausenden von Knoten skaliert werden.

Big Data zu speichern, übersteigt die Fähigkeiten herkömmlicher Dateisysteme. (Bild: © garrykillian - adobe.stock.com)

Lustre – Dateisystem der Supercomputer

Lustre ist ein weiteres paralleles Dateisystem, das vor allem für große Cluster mit extrem großen Datenmengen optimiert ist (High-Performance-Computing, HPC). Im Fokus des Dateisystems steht eine extrem hohe Leistungsfähigkeit. Einige der schnellsten Supercomputer der Welt setzen auf Lustre. Natürlich ist das System auch für kleine Netzwerke und mittlere oder kleine Cluster nutzbar. Das Dateisystem steht als Open Source (GPL2) zur Verfügung.

Seit Dezember 2019 ist die neue Version 2.13.0 erhältlich, die über einige Neuerungen verfügt, mit denen die Leistung des Dateisystems weiter ansteigt. Mit Persistent Client Cache kann Luste lokalen Datenspeicher von Clients als Cache nutzen. Sinnvoll ist das, wenn hier zum Beispiel schneller Flash-Speicher verbaut ist. Der Sinn dahin ist, dass Clients Daten lokal speichern, zum Beispiel auf Datenträgern mit dem Dateisystem ext4. Das erhöht weiter die Leistung des Systems, da dieser Speicher direkt in das Dateisystem integriert wird. Dadurch können auch andere Clients im Netzwerk auf die Daten zugreifen, die auf dem entsprechenden entfernten Client gespeichert sind.

Google File System – Dateisystem der Google-Websuche

Das Google File System (GFS, GoogleFS) ist ebenfalls ein linuxbasiertes, verteiltes Dateisystem, das von Google 2003 veröffentlicht wurde. Das System wird auch intern von Google genutzt, zum Beispiel bei der Websuche. Das Dateisystem kann sehr große Dateien und Datenmengen speichern. Das Dateisystem ist für einen hohen Datendurchsatz optimiert. Wie bei anderen verteilten Dateisystemen besteht ein Storage-System, das auf GFS setzt, aus verschiedenen Clusterknoten.

Ein Knoten wird zum Master, die anderen Knoten stellen die Chunkserver dar. Auf den Chunkservern werden die Daten gespeichert. Insgesamt lassen sich mehrere tausend Knoten zusammenfassen. Auf dem Masterserver werden die Metadaten gespeichert. Der Server steuert darüber hinaus die Zugriffe auf die Daten. Generell stellt so eine Struktur ein Problem dar, weil die Skalierbarkeit und die Verfügbarkeit des Clusters vom Masterknoten abhängen. Google hat diesbezüglich allerdings noch keine Probleme festgestellt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Einige Google-Mitarbeiter, die bei der Entwicklung von GFS mitgearbeitet haben, sind auch an der Entwicklung von Nutanix Distributed Filesystem beteiligt. Das System orientiert sich generell an GFS, entspricht vom Funktionsumfang aber eher VMware vSAN.

Zum Speichern von Big Data benötigt man entsprechend dimensionierte Dateisysteme. (Bild: © garrykillian - AdobeStock)

XtreemFS – Open-Source-Dateisystem für Big Data

Ein weiterer Vertreter verteilter Dateisysteme ist das Open-Source-Dateisystem XtreemFS. XtreemFS erfordert keine spezielle Hardware oder Kernelmodule. Das System kann auf Linux, Windows und macOS eingesetzt werden. Der Vorteil des Systems ist, dass es sehr schnell einsatzbereit ist, wie die Quickstart-Anleitung für Linux zeigt.

XtreemFS repliziert Daten über mehrere Server, die auch auf verschiedenen Rechenzentren weltweit verteilt sein können. Für jede replizierte Datei führt XtreemFS eine Liste von Replikaten, die Administratoren die Kontrolle darüber gibt, wo die Replikate gespeichert werden sollen. Dadurch lassen sich auch eigene Richtlinien erstellen. Wenn eine replizierte Datei geöffnet wird, wählt XtreemFS automatisch eine primäre Replik für diese Datei aus. Fällt die primäre Replik aus, übernimmt nach einer kurzen Failover-Periode automatisch eines der Backup-Replikate. Zusätzlich bietet XtreemFS eine schreibgeschützte Replikation.

Dieser Replikationsmodus arbeitet mit unveränderlichen Dateien und unterstützt eine große Anzahl von Replikaten. Eine XtreemFS-Installation kann auf Tausende von Speicher- und Metadaten-Servern skaliert werden. Unternehmen können mit XtreemFS eine eigene Speicher-Cloud aufbauen oder XtreemFS aus der Cloud heraus für den Zugriff auf externe Speicherressourcen nutzen.

(ID:46533575)

Expertenbeitrag

Thomas Joos