Cluster-Dateisystem für Forschung und Lehre Teil 2

Durch geschickte Datenverteilung zu Höchstleistungen

Seite: 2/3

Firmen zum Thema

Aus demselben Grund hat man auch auf eine direkte Kompression verzichtet. Sie würde zu viel Zeit kosten – und die hat das Dateisystem nicht, wenn unablässig riesige Datenmengen von einem Großexperiment auf es zuströmen.

Snapshots werden mit Bordmitteln unterstützt und schnell abgearbeitet. Mehrere Terabyte große Dateisysteme lassen sich in wenigen Sekunden sichern, da eine Copy-on-Write-Technik eingesetzt wird. Die momentane Version von GPFS unterstützt 31 Snapshots pro Dateisystem. Diese Snapshots sind besonders wichtig, da GPFS keine Versionsnummer kennt. Im Falle eines Falles sind die Snapshots also der Weg zurück auf einen gesicherten Datenbestand.

Beeindruckende Leistungswerte

Die technischen Daten des IBM-Dateisystems sind beeindruckend. Das General Parallel File System ist ein hochskalierbares Dateisystem für Computer-Cluster, das Hunderte von Knoten mit Tausenden von Festplatten unterstützt. Auch Tausende von Knoten sind kein Problem, wenn man eine Freigabe von IBM einholt. Und auch ein automatisches Journaling (Logging) der Metadaten ist bereits eingebaut.

GPFS stellt dem Anwender eine breite Auswahl an möglichen Blockgrößen zur Verfügung, die Bandbreite reicht von 16 bis 4.096 Kilobyte (zum Vergleich: Windows NTFS benutzt Blockgrößen von 4 bis 64 Kilobyte). GPFS ist auf maximale Geschwindigkeit ausgelegt und spaltet daher jede Datei in möglichst viele Blöcke auf und verteilt diese auf die verfügbaren Festplatten. Eine automatische Recovery-Funktion soll Datenverluste verhindern. Aktuell verwendete Daten werden zudem in großen Zwischenspeichern (Caches) auf den Clusterknoten gespeichert.

GPFS verfügt über eine Block-Allocation-Tabelle in der vermerkt wird, welcher Block auf welcher LUN zu welcher Datei gehört. Diese Tabelle wird beim Anlegen des Dateisystems erstellt und beim Hinzufügen oder Entfernen von LUNs aus dem Dateisystem entsprechend nachgeführt.

Sollte der Plattenplatz knapp werden, so versucht das System zunächst, ungenutzte Ressourcen aufzufüllen – und zwar über alle Array-Grenzen hinweg. Der Anwender selbst kann im laufenden Betrieb Dateien verschieben, Disks hinzufügen oder auch herausnehmen oder optional Daten im Dateisystem komplett neu über die Disks verteilen, um eine optimale Verteilung zu erreichen.

weiter mit: vorerst unerschöpfliche Adressierbarkeit

(ID:2018678)