Mobile-Menu

Cray optimiert die I/O-Zugriffe beim Supercomputer Shaheen II 536 Datawarp-SSDs machen auch das parallele Dateisystem Lustre zum Bottleneck

Autor / Redakteur: Bilel Hadri und Saber Feki, Computerwissenschaftler am KAUST Supercomputing Laboratorium / Rainer Graefen

Die Zeiten sind vorbei wo HDD-orientierte Speicher den wissenschaftlichen Fortschritt behinderten. Der Siegeszug der Halbleiterspeicher beschleunigt auch bei modernen Supercomputern den Datenzugriff. Durch diese "Burst Buffer" ist auch die grafische Aufbereitung aller Daten in einem Schritt machbar.

Anbieter zum Thema

(Bild: Kaust)

Das Bonmot des Computerwissenschaftlers Ken Batcher, nach dem "ein Supercomputer ein Gerät ist, das aus Rechenproblemen E/A-Probleme macht", wird zunehmend von der Realität eingeholt: Gegenüber anderen Komponenten eines Supercomputers sind E/A-Subsysteme oft vergleichsweise langsam.

Dass dies so ist, liegt überwiegend an der bekannten und stetig wachsenden Performance-Lücke zwischen den primär geschwindigkeitsorientierten Computing-Komponenten und den Speichereinheiten, die wiederum vorrangig kapazitätsorientiert sind und erst in zweiter Linie leistungsorientiert.

SSD-Speicherschicht reizt paralleles Dateisystem Lustre aus

Im Juni 2015 nahm die King Abdullah University of Science and Technology (KAUST) "Shaheen II" in Betrieb, einen Cray XC40 Supercomputer mit 36 Cabinets und einer theoretischen Spitzenleistung von 7,2 Petaflops. Ergänzt wird der Höchstleistungscomputer durch ein Cray Sonexion-Speichersystem mit 17 Petabyte und einem parallelen Dateisystem, das einen E/A-Durchsatz von über 500 Gigabyte pro Sekunde schafft.

Zu den vielfältigen Aufgaben von Shaheen II gehören datenintensive Projekte wie seismische Bildgebung, numerische Strömungsmechanik, Wetter- und Klimamodellierung sowie Anwendungen aus dem Bereich der Biologie.

In Verbindung mit dem E/A-Charakterisierungs- und -Profilingtool Darshan kann das KAUST Supercomputing Lab (KSL) das E/A-Verhalten der einzelnen Anwendungen in dem System analysieren und die E/A-lastigen Anwendungen so optimieren, dass das parallele Dateisystem möglichst optimal genutzt wird.

Allerdings bringen auch Tuning und Optimierung nicht immer die gewünschten Ergebnisse, z. B. wenn die Anwendungen die Daten schneller erzeugen, als sie das Dateisystem verarbeiten kann. Auch kann die Feinabstimmung der Anwendungen recht aufwändig sein, so dass die User ihre Codes nur ungern neu schreiben.

Im Rahmen des Shaheen-Auftrags schloss Cray im November 2015 auch die Installation von 268 Datawarp Accelerator Nodes ab, bestehend aus 536 Intel SSDs. In Summe steht den Shaheen-Nutzern damit eine aggregierte Burst-Buffer-Kapazität von 1,56 Petabyte zur Verfügung. Die äußerst schnelle mittlere Speicherschicht erzielt nahezu das Dreifache der Leistung, die das parallele Dateisystem Lustre aufbieten kann.

IOR-Performance-Rekord

Unter den Augen des versammelten KSL-Teams sowie des Cray-Performance-Teams von Joe Glenski wurde der IOR-Benchmarktest von Shaheen mit allen 268 Datawarp Accelerator Nodes und insgesamt 5.628 Rechenknoten in Angriff genommen.

Die gemessenen 1,54 TByte/s bei IOR-Schreiboperationen und 1,66 TByte/s bei IOR-Leseoperationen dürften die weltweit beste IOR-Performance sein, die jemals mit einem einzigen parallelen Dateisystem erzielt wurde.

Shaheen-Nutzer können von dieser Technologie profitieren, ohne dass sie dafür Änderungen an ihren Anwendungen vornehmen müssen. Eine Aktualisierung ihrer Skripte für die SLURM-Jobübergabe ist völlig ausreichend. Erste Tests mit seismischer Bildgebungsanwendung und Klimamodellierungscode erbrachten Performance-Steigerungen von rund 30 Prozent.

Die an der KAUST entwickelten Anwendungen für die seismische Bildgebung mit Funktionen wie Reverse-Time Migration und Full Waveform Inversion ziehen besonderen Nutzen aus der Bereitstellung einer schnellen parallelen E/A-Schicht. Schon jetzt zeigte sich bei einem der E/A-intensivsten Algorithmen eine Leistungsverbesserung von maximal 34 Prozent.

Grafische Aufbereitung der Long-Beach-Seismik

"Der Shaheen-Supercomputer hat meiner Gruppe eine völlig neue Dynamik verliehen", freut sich Gerard Schuster, Professor für Earth Science and Engineering an der KAUST. "So konnten wir z. B. anhand von seismischen Daten, die mit einem 3D-Aufzeichnungssystem über mehrere Monate im kalifornischen Long Beach erfasst worden waren, durch eine Methode der kleinsten Quadrate die natürliche Migration bestimmen.

Die Migrationsresultate bestätigten die Existenz bereits dokumentierter Störungen in der Region und erbrachten zudem Hinweise auf bisher unbekannte tektonische Störungen, die an der Oberfläche nicht erkennbar sind.

Ich bin der festen Überzeugung, dass unsere Erkenntnisse zu einer Neubewertung der Erdbebengefahr in der Long-Beach-Region führen werden und dass sich die dahinter stehende Technologie sehr schnell in unserer Wissenschaftsgemeinde verbreiten wird. Die bildliche Darstellung sämtlicher Long-Beach-Daten wäre ohne die Power von Shaheen und die verbesserte E/A-Verarbeitung nicht machbar gewesen."

Staub-Aerosole und Temperaturverteilung

Für Klimavorhersagen und Umweltmodellierungen bedeutet Shaheen einen enormen Schritt nach vorn. So beschäftigt sich Georgiy Stenchikov, ebenfalls Professor für Science and Engineering an der KAUST, mit der Berechnung des Strahlungsantriebs von Staub-Aerosolen im Nahen und Mittleren Osten und ihrer Auswirkung auf die atmosphärische Zirkulation und die Temperaturverteilung in der Region.

Dabei nutzt Stenchikov das am NOAA Geophysical Fluid Dynamics Laboratory entwickelte globale High-Resolution Atmospheric Model HiRAM, das eine 100 Mal höhere räumliche Auflösung erlaubt als konventionelle globale Modelle. Mit den Forschungen soll eine solide wissenschaftliche Grundlage für Gesetze und Maßnahmen zum Schutz der Umwelt in Saudi-Arabien geschaffen werden.

Burst Buffer, Staging und Analyse-Output

Valerio Pascucci, der eine Gastprofessur an der KAUST innehat und zudem an der University of Utah lehrt, erläutert: "Bei der Skalierung von PIDX-Daten auf Shaheen konnten wir bereits jetzt feststellen, dass die Cray-Architektur in Produktionsumgebungen eine extrem hohe E/A-Performance erzielt.

Mit der Einführung des Burst Buffers rechnen wir mit einer weiteren Vervielfachung der Leistung, die wir unseren Mitarbeitern bei ihren Forschungsanwendungen bereitstellen können. Ein wichtiger Faktor ist die erhöhte Asynchronität der physischen E/A-Operationen infolge des Burst Buffers.

Sie ermöglicht eine bessere Überlappung von Datenspeicherung und Computing. Noch zentraler ist aber, dass wir künftig schnelle Prüfpunktauszüge und Neustarts ohne Festplatten-E/A durchführen können – ein wichtiger Vorteil angesichts der Resiliency-Problematik, die mit dem Aufkommen der Exascale-Datenverarbeitung auf uns zukommt.

Wir wollen den Burst Buffer außerdem als Staging-Bereich für die Insitu-Datenanalyse nutzen, um so den wissenschaftlichen Output drastisch zu steigern und das Datenmanagement zu vereinfachen."

Artikelfiles und Artikellinks

(ID:44083292)