Intel hat neue Versionen des „Lustre“-File-Systems angekündigt und baut damit sein „HPC Scalable System Framework“ erheblich aus. Parallele File-Systeme wie Apache Lustre sind entscheidend für die Performance von Clustern. An Alternativen zu Lustre fehlt es zum Glück nicht – gute Beispiele sind „IBM Spectrum Scale/GPFS“ und „BeeGFS“.
Intel HPC Scalable System Framework vereint die Disziplinen Compute, Memory/Storage, Fabric und Software.
(Bild: Intel)
Intel hat mittlerweile eine dominierende Stellung im Prozessormarkt für High Performance Computing (HPC) erlangt. In diesem exklusiven Markt heißen laut IDC 98 von 100 CPUs mittlerweile „Xeon“, und unter den Top 500-Supercomputern kommt kaum einer ohne Intel-CPU aus.
Nun schickt sich der Prozessorhersteller an, mit einer neuen Initiative seine Leistungsfähigkeit auch bei den Parallelen File-Systeme unter Beweis zu stellen.
Exascale kommt - irgendwann
Ingolf Wittmann, Technischer Direktor für den Bereich Systems und Software bei IBM Deutschland
(Bild: IBM)
Der Weg hinauf zum Exascale-Niveau ist weit, doch es gibt Hoffnung. „Aber ein paralleles Filesystem ist wie In Memory Computing ein wesentlicher Bestandteil eines Exascale-Systems“, weiß Ingolf Wittmann, Technischer Direktor für den Bereich Systems und Software bei IBM Deutschland. „Der Nutzer vermeidet dadurch redundante Datenhaltung, beschleunigt so das System und erhält eine Gesamtsicht auf den Cluster.“ Die Probleme der Kühlung eines Exascale-Systems und die Parallelisierung der entsprechenden Anwendungen sind allerdings ebenfalls zu lösen.
Viele Wege führen zum Ziel
Das HPC Scalable System Framework vereint das kommende Intel-Fabric unter der Bezeichnung „Omnipath Architecture“ mit den Funktionen Compute, Storage/Memory und Software. Lustre erweist sich als paralleles, verteiltes Filesystem (PFS) in diesem Rahmen von entscheidender Bedeutung für die Skalierbarkeit und Performance eines Systems. Die Leistung beruht vor allem dem hohen Datendurchsatz und wie viele Datenobjekte (Ordner, Files, Namespaces) wie schnell für eine Anwendung bereitgestellt werden können.
Daraus ergibt sich, dass das File-System eng mit der Storage-Ebene zusammenarbeiten muss. Um Datenobjekte schnell finden und durchsuchen zu können, werden von jeher Metadaten-Server (MDS) verwendet, in denen die Verweise zu den Objekten abgelegt sind. Die Suche in diesen umfangreichen Verzeichnissen erfolgt durch die Parallelisierung schneller.
Backup und Data Recovery für Lustre
Damit es keine Inkonsistenzen oder gar Ausfälle gibt, muss das parallele Filesystem RAID-ähnliche Leistungsmerkmale aufweisen. So lassen sich etwa Datenobjekte im Object-Storage-Verfahren über globale Netzwerke hinweg redundant verteilen und hochverfügbar halten.
Backup und Data Recovery ist unabdingbar für solche Systeme, war aber bei dem Opensource-File-System Apache Lustre nicht von Anfang vorhanden. Das gilt auch für die Technik des Hierarchischen Storage Managements (HSM), das erst im Oktober 2013 Eingang in die Lustre-Version 2.5 fand.
Anno 2012 erwarb Intel die Firma Whamcloud, die von jeher stark mit der Lustre-Entwicklung involviert ist. Whamcloud hatte einen Regierungsauftrag vom Energieministerium gewonnen, der die Entwicklung eines File-Systems für Exascale-Systeme zum Ziel hat, also für Systeme, die die tausendfache Leistung eines Supercomputers mit 1 Billiarde Gleitkomma-Operationen pro Sekunde (Peta-FLOP/s). Zurzeit werden Supercomputer mit einer Leistung von über 100 Pflops gebaut; Exascale ist wohl noch Jahre entfernt (siehe: Kasten)
Die neuen Lustre-Editionen von Intel
Kein Wunder, dass Intel auf dieser lukrativen Baustelle rasch vorankommen will und schon im dritten Quartal zwei neue Lustre-Editionen auf den Markt bringt. Auf der seit März 2015 verfügbaren Lustre-Version 2.7 baut Intels Lustre Enterprise Edition 2.3 auf. Sie unterstützt mehrere parallel geschaltete Metadaten-Server sowie die Betriebssysteme Red Hat (RHEL 7) und Suse (SLES 12). Die gleichzeitig veröffentlichte Cloud Edition 1.2 für das beliebter werdende Hochleistungsrechnen in der Cloud bietet verbesserte Funktionen für Disaster Recovery, Datenverschlüsselung und das rasche Einrichten von Lustre auf Client-Rechnern.
Im Frühjahr 2016 soll die nächste Version 3.0 der Enterprise Edition folgen. Sie soll verbesserte Sicherheit mit Kerberos und „SELinux“ bietet, File-System-Snapshots mit „OpenZFS“ speichern können und allgemein eine höhere Performance aufweisen. Da Lustre in sechs von zehn Supercomputern verwendet wird und alle Supercomputer ihre Leistung steigern müssen, wenn sie wettbewerbsfähig bleiben wollen, sind leistungssteigernde Neuerungen von großer Bedeutung für den jeweiligen Betreiber. Am Höchstleistungsrechenzentrum Stuttgart beispielsweise ist der Autohersteller Porsche beteiligt und daher stark daran interessiert, dass die bestmöglichen Rechner Aufgaben wie Crash-Simulationen und Modell-Prototyping optimal unterstützen.
Stefan Gillich, Director HPC and Workstation EMEA bei Intel.
(Bild: iscevents)
„Die neuesten Lustre-Lösungen von Intel“, sagt Stephan Gillich, Director HPC bei Intel, „bieten signifikante Leistungs- und Kapazitätssteigerungen für HPC-Cluster und IT-Organisationen großer Unternehmen, vom Einsatz in der Cloud bis zu Big Data.“ Unter anderem sei Lustre für eines der größten US-amerikanischen HPC-Projekte (Aurora) auf diesem Gebiet ausgewählt worden.
Allianz von Intel und HP
Im Juli hat Intel mit HP eine enge Allianz geschlossen. Diese soll Innovationen bei Kunden vorantreiben und Unternehmen aller Größen den Zugang zu HPC-Lösungen ermöglichen (siehe: Abbildung 4). „Lustre ist für HP auf jeden Fall wichtig“, sagt etwa Frank Baetke, Global HPC Business Development Manager bei Hewlett-Packard. „Es ist eine strategische Komponente im Bereich paralleler Filesysteme für HPC-Umgebungen, aber wir sehen auch die Möglichkeit, dass Lustre mehr im kommerziellen Bereich eingesetzt wird.“
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Innerhalb der neuen Allianz mit Intel bietet Hewlett-Packard sein HPC Solutions Framework an, das auf „HP-Apollo“-Servern basiert. Die neuen Branchen-Lösungen sollen den Einsatz von Supercomputing für Kunden aus Branchen wie Öl und Gas, Life Science und Finanzdienstleistungen deutlich vereinfachen.
Alternativen zu Lustre
Aber im Bereich der parallelisierten Filesysteme ist der Markt noch ein gutes Stück davon entfernt, ebenfalls von Intel beherrscht zu werden. Vielmehr gibt es eine große Vielfalt von PFS, unter denen der Anwender wählen kann. Eines der jüngsten PFS kommt aus Deutschland: Das von der Fraunhofer-Gesellschaft entwickelte, kostenlose BeeGFS ist ein Parallel Cluster File System, das sich sehr leicht installieren lassen soll (siehe: Abbildung 5 und 6) Ein weiteres PFS stammt von der US-Firma Panasas und wurde für Enterprise Storage-Umgebungen optimiert.
Das neben Lustre verbreitetste PFS für Cluster ist das seit 1998 existierende General Parallel File System von IBM. Es lässt sich auf AIX, Linux und Windows Betriebssystemen einsetzen. Das proprietäre und für Firmen kostenpflichtige Produkt wird generell als GPFS abgekürzt, und IBM verkauft es standalone als das Software-Defined Storage-Produkt „Spectrum Scale“. Während es wie Lustre in vielen der Top-500-Supercomputern seinen Dienst versieht, genießt es bereits große Verbreitung in kommerziellen Umgebungen.
„GPFS ist ein Allround-Filesystem, das bei Großunternehmen wie Banken, Autoherstellern und der Pharma-Industrie eingesetzt wird“, erläutert Ingolf Wittmann, Technischer Direktor für den Bereich Systems und Software bei IBM Deutschland. „Es dient dazu, große Dateimengen mit hoher Geschwindigkeit zu bewegen.“
GPFS und Big-Data-Analysen
Im Sinne von IBMs „Data-centric Computing“-Strategie erlaubt es GPFS, die Daten zu den Anwendungen zu bringen. „Mit Hilfe des File Placement Optimizers kann man die Daten in einem Cluster optimiert dorthin verlegen, wo eine Anwendung sie benötigt“, erläutert Klaus Gottschalk, HPC-Experte bei IBM Deutschland . „Daher unterstützt GPFS auch direkt Data Analytics, in Deutschland etwa bei Anwendungsgebieten in der Saatgut-Analyse oder in der Suche nach Krebs begünstigenden Genen.“
Klaus Gottschalk, HPC-Experte bei IBM Deutschland
(Bild: IBM)
Die Verfügbarkeit und Skalierbarkeit hat oberste Priorität. Das GPFS lässt sich in den Cluster-Modi Shared-Disk oder Shared-Nothing implementieren. „GPFS hat sein eigenes RAID-System“, erläutert Wittmann. „Das RAID-Feature hat zwei Vorteile: Es verkraftet a) einen Ausfall von bis zu drei Disks in einem RAID-Verbund und b) ist die Wiederanlaufzeit nach dem Ausfall mit weit geringerem Effekt auf das System verbunden. Der Rebuild bei der Disaster Recovery dauert bei herkömmlichen RAID-Systemen länger.“ Remote Replication von Filesets und der Aufbau eines Hierarchischen Storage Managements durch Datenmigration sind laut Gottschalk ebenfalls realisierbar.
Sicherheitsmerkmale wie Zugriffslisten mit Kerberos-PKI-Schutz sind in GPFS ebenso realisiert wie verschiedene Authentifizierungsmethoden. „GPFS ist Teil unseres Software-defined Networking“, sagt Wittmann. Im Unterschied zu der „unklaren Produktpolitik“ von Oracle, das „SunFS“ besitzt, verfüge IBM über eine klare SDN- und PFS-Strategie. „Wir unterstützen Migrationen von anderen PFS wie etwa Sun-FS und geben der Opensource Community entsprechenden Code. Viele Petabyte-System-Nutzer wechseln von einem Sun File System zu einem Parallel Filesystem.“
* Michael Matzer ist freier Fachautor in Stuttgart.