Durch geschickte Datenverteilung zu Höchstleistungen

Cluster-Dateisystem für Forschung und Lehre Teil 2 Durch geschickte Datenverteilung zu Höchstleistungen

13.01.2009Autor / Redakteur: Bernd Schöne / Nico Litzel

Beim Umgang mit den Daten spürt man die Herkunft von GPFS aus dem High Performance Computing. Die Daten werden so über alle angeschlossenen Platten verteilt, dass die Zugriffs-Geschwindigkeit (I/O) maximal wird. Das geschieht durch „wide striping”, also das „Zerhacken” einer Datei in möglichst viele Blöcke.

Anbieter zum Thema

DataCore Software GmbH

FAST LTA GmbH

IBM Deutschland GmbH

GPFS unterteilt dabei die Blöcke in bis zu 32 Subblöcke, wobei für jeden Block eine eigene Prüfsumme berechnet wird. Zunächst beschreibt das Dateisystem freie Blöcke. Wenn diese zu Neige gehen, kommen die noch freien Subblöcke mit Dateifragmenten an die Reihe.

Sollte einer der Knoten ausfallen, übernehmen automatisch die anderen dessen Dateisystemaufgaben mit. Die Anzahl der Knoten ist eher akademisch begrenzt auf aktuell 2.000 Knoten. Das nächste Update wird IBM diese Grenze auf 4.000 Knoten heraufschrauben. Beim Vorzeigeprojekt Roadrunner hatte IBM diese Grenze aber schon Anfang des Jahres durchbrochen. Für die Freigabe solch großer Installationen muss aber nach wie vor IBM kontaktiert werden. Wer Cluster in eigener Regie betreibt, muss sich auf 512 Linux- oder 128 AIX-Server beschränken.

Mit Funktionsreduzierung Leistungsreserven mobilisieren

GPFS wurde hinsichtlich Leistung und Geschwindigkeit optimiert, was all jenen Anwendern entgegenkommt, die mathematische Probleme zu lösen haben oder die sehr große Datenmengen in kürzester Zeit speichern müssen. Ein Archivsystem, das mit zigfacher Redundanz einfach nur Daten ablegt, ist GPFS nicht. So lässt sich das Dateisystemlog abschalten, um noch höhere Geschwindigkeiten zu erzielen.

Das Filesystem bleibt konsistent, selbst wenn eine Platte überraschend entfernt wird oder ausfällt. Gibt es in solch einem Fall keine (optional erstellbare und bis auf Dateiebene herunter konfigurierbare) synchrone Datenkopie, so wird das Dateisystem so lange angehalten, bis die ausgefallene Platte wieder reaktiviert wird. Mit einer synchronen Kopie würde das System wie gewohnt weiterarbeiten. Da GPFS normalerweise aber auf RAID-Arrays eingesetzt wird, ist das eher selten der Fall, da die logischen Laufwerke (LUN) ja schon durch das RAID im Storage-Subsystem abgesichert werden.

Aufgaben richtig delegieren

GPFS verwaltet die RAID-Level nicht selbst, sondern überlässt diese Organisationsaufgaben genauso wie das Data Scrubbing den angeschlossenen Storage-Subsystemen. Anders als ZFS von SUN verwendet IBM keine Schattenkopien. Veränderungen werden also direkt auf die Platte geschrieben. Das alles erhöht die Geschwindigkeit.

weiter mit: keine Datenkompression

(ID:2018678)