Mobile-Menu

Speichertipp: Struktur, Funktionen und Besonderheiten des skalierbaren Cluster-Dateisystems BeeGFS: parallele Dateisystemarchitektur für Hochleistung und Skalierbarkeit

Von Thomas Joos 3 min Lesedauer

Anbieter zum Thema

BeeGFS segmentiert Dateiinhalte und Metadaten systematisch, um Engpässe klassischer Fileserverarchitekturen zu umgehen. Statt auf ein einzelnes Back-End zuzugreifen, verteilen sich Dateizugriffe über mehrere Speicherknoten, wobei Clients parallele Verbindungen zu allen relevanten Servern aufbauen.

BeeGFS verteilt Daten intelligent über mehrere Speicherknoten und vermeidet damit Engpässe. Die klare Struktur sorgt für eine übersichtliche Datenverwaltung.(Bild:  Midjourney / KI-generiert)
BeeGFS verteilt Daten intelligent über mehrere Speicherknoten und vermeidet damit Engpässe. Die klare Struktur sorgt für eine übersichtliche Datenverwaltung.
(Bild: Midjourney / KI-generiert)

Der Zugriff erfolgt bei BeeGFS direkt auf die Storage-Targets, koordiniert über Metadatenserver, die lediglich Verweise, Pfade und Striping-Informationen verwalten. Diese Trennung schafft nicht nur Skalierungsspielraum, sondern ermöglicht auch Einzelclients Zugriffsraten, die dem aggregierten Durchsatz der Speicherknoten entsprechen.

Architekturprinzipien und Betriebsformen

Der BeeGFS-Client wird als Kernel-Modul eingebunden und stellt ein reguläres Mount-Target zur Verfügung. Serverseitig laufen alle Komponenten als Userspace-Dienste ohne tiefgreifende Eingriffe ins Betriebssystem. Der Aufbau erlaubt sowohl klassische verteilte Clusterarchitekturen als auch konvergente Set-ups, bei denen alle Rollen – Client, Metadata, Storage, Management – auf denselben Knoten ausgeführt werden. Über den Multi-Mode lassen sich auch mehrere Instanzen einer Dienstklasse auf einem Host betreiben.

Das System unterscheidet neben Client, Storage- und Metadata-Servern zwei weitere Dienste: das Management-Modul, das als zentrale Registrierungs- und Überwachungseinheit fungiert, und den optionalen Monitoring-Dienst. Letzterer überträgt Leistungsdaten an externe Zeitreihendatenbanken zur Visualisierung und Analyse, zum Beispiel mit Grafana.

Datenverteilung, Striping und Pools

Dateien werden blockweise über mehrere Targets verteilt. Die Konfiguration der Stripe-Anzahl und Chunk-Größe kann je nach Anwendungsprofil angepasst werden. Auch eine Kombination aus Striping und Spiegelung ist möglich. Die Zielauswahl beim Schreiben neuer Dateien richtet sich nach Kapazitätsgrenzen; die Storage-Targets werden dynamisch in Pools wie „Normal“, „Low“ und „Emergency“ eingeteilt. Darüber hinaus lassen sich logische Storage-Pools definieren, die Targets oder Spiegelgruppen nach Leistungsklassen gruppieren, zum Beispiel schnelle SSDs für transiente Daten, magnetische Massenspeicher für Langzeitarchivierung.

Jede Datei kann explizit einem Pool zugewiesen werden. Dies erfolgt entweder über dedizierte Verzeichnisse je Pool oder direkt über das beegfs-Tool. Die Zuweisung ist nicht an die Verzeichnisstruktur gebunden, Dateien im selben Ordner können in unterschiedlichen Pools liegen. Quotas lassen sich differenziert pro Pool definieren.

Verfügbarkeit durch Buddy-Mirroring

Zur Erhöhung der Ausfallsicherheit implementiert BeeGFS synchrone Spiegelung von Metadaten und Dateiinhalten über sogenannte Buddy-Groups. Eine Buddy-Group besteht jeweils aus einem primären und einem sekundären Ziel. Modifikationen laufen über den Primärserver, der synchron auf das Spiegelziel repliziert. Fällt der primäre Knoten aus, übernimmt der Sekundärserver nach einer kurzen Wartezeit die aktive Rolle. Voraussetzung ist ein laufender Managementdienst; Failover-Vorgänge sind vollständig transparent für Applikationen.

Die Spiegelung ist unabhängig aktivierbar für Inhalte und Metadaten. Metadaten benötigen stets eine gerade Anzahl von Servern, da diese nicht auf Targets verteilt werden. Auch in gemischten Set-ups bleibt ungespiegelte Datennutzung möglich; Buddy-Groups schließen die reguläre Speicherung nicht aus.

Metadatenorganisation und Löschmechanik

Metadaten verteilt BeeGFS auf Verzeichnisebene zufällig über die verfügbaren Metadatenserver. Jede Verzeichnisebene liegt vollständig auf einem Knoten, wodurch Directory-Look-ups gleichmäßig lastverteilt werden. Ein Server übernimmt die Rolle des Root-Nodes, fungiert als initialer Einstiegspunkt und bleibt über Neustarts hinweg stabil identifiziert.

Wird eine Datei gelöscht, während sie noch von einem Prozess geöffnet ist, verschiebt BeeGFS sie temporär in ein Disposal-Verzeichnis des Metadatenservers. Erst nach Schließen aller Referenzen erfolgt die vollständige Löschung. Clientseitig abgestürzte Prozesse führen automatisch zur Entfernung der Disposal-Inhalte nach einer Zeitspanne von rund 30 Minuten.

Erweiterte Funktionen ohne Systembruch

BeeGFS verzichtet auf gruppenbezogene Einschränkungen bei Nutzerrechten, wie sie bei NFS-basierten Systemen auftreten. Nutzer können beliebig vielen Gruppen angehören. Ergänzend unterstützt das System Event-Streams von Metadatenservern, über die externe Engines Dateioperationen mitverfolgen und regelbasiert verarbeiten können, etwa zum automatisierten Archivieren, Klassifizieren oder Auditieren.

Aktuelles eBook

Storage-Software als Effizienzbooster

eBook Storage-Software als Effizienzbooster
eBook „Storage-Software als Effizienzbooster“
(Bild: Storage-Insider)

Mit der geeigneten Storage-Software kann sich ein Unternehmen einen Effizienzbooster ins Haus holen oder in der Cloud abonnieren. Dieser Booster steigert nicht nur die Performance der geschäftskritischen Anwendungen, sondern optimiert auch die Kosten der bereits installierten Speichersysteme.

Die Themen im Überblick:

  • Herausforderungen eines modernen Speichersystems
  • Methoden und Technologien effizienter Speichersysteme
  • Effizienter Speicher mit Pure Storage, AWS, Cohesity und Dell

(ID:50472153)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung