Cluster-Dateisystem für Forschung und Lehre Teil 2

Durch geschickte Datenverteilung zu Höchstleistungen

13.01.2009 | Autor / Redakteur: Bernd Schöne / Nico Litzel

Leistungsfähige Supercomputer wie Mare Nostrum sind nichts ohne ein passendes Dateisystem wie GPFS. (Quelle: Barcelona Supercomputing Center)
Leistungsfähige Supercomputer wie Mare Nostrum sind nichts ohne ein passendes Dateisystem wie GPFS. (Quelle: Barcelona Supercomputing Center)

Beim Umgang mit den Daten spürt man die Herkunft von GPFS aus dem High Performance Computing. Die Daten werden so über alle angeschlossenen Platten verteilt, dass die Zugriffs-Geschwindigkeit (I/O) maximal wird. Das geschieht durch „wide striping”, also das „Zerhacken” einer Datei in möglichst viele Blöcke.

GPFS unterteilt dabei die Blöcke in bis zu 32 Subblöcke, wobei für jeden Block eine eigene Prüfsumme berechnet wird. Zunächst beschreibt das Dateisystem freie Blöcke. Wenn diese zu Neige gehen, kommen die noch freien Subblöcke mit Dateifragmenten an die Reihe.

Sollte einer der Knoten ausfallen, übernehmen automatisch die anderen dessen Dateisystemaufgaben mit. Die Anzahl der Knoten ist eher akademisch begrenzt auf aktuell 2.000 Knoten. Das nächste Update wird IBM diese Grenze auf 4.000 Knoten heraufschrauben. Beim Vorzeigeprojekt Roadrunner hatte IBM diese Grenze aber schon Anfang des Jahres durchbrochen. Für die Freigabe solch großer Installationen muss aber nach wie vor IBM kontaktiert werden. Wer Cluster in eigener Regie betreibt, muss sich auf 512 Linux- oder 128 AIX-Server beschränken.

Mit Funktionsreduzierung Leistungsreserven mobilisieren

GPFS wurde hinsichtlich Leistung und Geschwindigkeit optimiert, was all jenen Anwendern entgegenkommt, die mathematische Probleme zu lösen haben oder die sehr große Datenmengen in kürzester Zeit speichern müssen. Ein Archivsystem, das mit zigfacher Redundanz einfach nur Daten ablegt, ist GPFS nicht. So lässt sich das Dateisystemlog abschalten, um noch höhere Geschwindigkeiten zu erzielen.

Das Filesystem bleibt konsistent, selbst wenn eine Platte überraschend entfernt wird oder ausfällt. Gibt es in solch einem Fall keine (optional erstellbare und bis auf Dateiebene herunter konfigurierbare) synchrone Datenkopie, so wird das Dateisystem so lange angehalten, bis die ausgefallene Platte wieder reaktiviert wird. Mit einer synchronen Kopie würde das System wie gewohnt weiterarbeiten. Da GPFS normalerweise aber auf RAID-Arrays eingesetzt wird, ist das eher selten der Fall, da die logischen Laufwerke (LUN) ja schon durch das RAID im Storage-Subsystem abgesichert werden.

Aufgaben richtig delegieren

GPFS verwaltet die RAID-Level nicht selbst, sondern überlässt diese Organisationsaufgaben genauso wie das Data Scrubbing den angeschlossenen Storage-Subsystemen. Anders als ZFS von SUN verwendet IBM keine Schattenkopien. Veränderungen werden also direkt auf die Platte geschrieben. Das alles erhöht die Geschwindigkeit.

weiter mit: keine Datenkompression

Inhalt des Artikels:

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 2018678 / NAS)