Keynote auf der DSX 2021 Data Storage Conference HPC-Technologien – why should I even care?

Autor / Redakteur: Daniel Menzel* / Dr. Jürgen Ehneß

Daniel Menzel, Experte für Hochleistungsinfrastrukturen, hält auf der DSX 2021 Data Storage Conference, die am 7. Oktober 2021 als virtueller Event stattfindet, eine Keynote zum Thema „Aufbau einer (hoch-)performanten Storage-Infrastruktur – Unterschiede bei HPC und Cloud“. In diesem Beitrag bietet er einen Einblick ins Thema und einen Vorgeschmack auf seinen spannenden Vortrag!

Firmen zum Thema

Auf der virtuellen DSX-Konferenz am 7. Oktober 2021 gibt es geballte Informationen zum Thema „Die Zukunft des Enterprise-Storage“.
Auf der virtuellen DSX-Konferenz am 7. Oktober 2021 gibt es geballte Informationen zum Thema „Die Zukunft des Enterprise-Storage“.
(Bild: Vogel IT-Medien)

Why should I even care? Warum sollte mich HPC überhaupt interessieren? Bei dieser Frage werden wahrscheinlich viele Mittelständler und auch Cloud-Provider (sofern sie nicht gerade HPC-Kunden ins Visier gefasst haben) mitgehen, hat HPC doch ganz andere Anforderungen als die klassische „Enterprise-IT“. Doch sie berauben sich damit eines großen Potentials: Zukunftstechnologien für ihre eigenen Virtualisierungs- und Cloud-Computing-Cluster zu betrachten – und zu nutzen.

► Mehr Infos zur DSX 2021 Data Storage Conference

 

 

Sicherlich, HPC ist eine spezielle Welt. Teilweise arbeiten hunderte individuelle Server als ein singulärer Cluster über mehrere Wochen gemeinsam an einer einzelnen Simulation; aufgeteilt in unzählige einzelne, aber teilweise über mehrere Nodes miteinander interagierende Rechenjobs. Der Rechenbedarf im HPC scheint hierbei geradezu unbegrenzt, sodass beispielsweise die (Netzwerk-)Latenz zwischen den einzelnen Systemen zu einem der wichtigsten Tuningparameter wird, um die für die gemeinsamen Jobs notwendige Interprozesskommunikation überhaupt performant zu ermöglichen.

Je geringer also die Latenz ist, je besser die Rechenjobs parallelisierbar sind und natürlich: Je mehr Hardware-Ressourcen zur Verfügung stehen, desto schneller ist die gesamte Simulation fertig gestellt – sehr zum Gefallen der Nutzerin. Diese bekommt derweil von der großen Maschinerie im Hintergrund im Idealfall nichts mit, sondern interagiert lediglich mit einem Queueingsystem und fordert per Tastendruck Ressourcen an. Sind davon ausreichend in der entsprechenden Queue vorhanden, werden die Rechenjobs „gescheduled“, andernfalls landen sie in einer Warteliste.

Die in Mathematik gegossenen Probleme der Simulationen werden heute häufig über Beschleuniger berechnet – wie etwa GPUs, welche vor Corona und dem damit verbundenen Homeoffice zwar in vielen HPC-, jedoch in den wenigsten Virtualisierungs- oder Cloud-Computing-Clustern zu finden gewesen sein dürften. Kurzum: Viele Paradigmen und Rahmenbedingungen sind im HPC anders als im Enterprise-Segment.

Dennoch profitieren Enterprise-Anwender vom High-Performance-Computing, denn: HPC-Nutzer sind early adopter neuer Technologien! Und so lässt sich der HPC-Markt auch als einer sehen, der dem der konventionellen Enterprise-IT schlicht um einige Jahre voraus ist.

HPC-Cluster gehörten beispielsweise neben den großen Hyperscalern zu den ersten Anwendern, die auf Ethernet als Storage-Netzwerk setzten (sofern nicht gerade das noch performantere Infiniband zum Einsatz kommt). Mehr noch: Man setzt im HPC regelmäßig nicht nur auf neue Technologien, sondern auch auf die Maximalausstattung ebendieser.

200-Gigabit-Ethernet? Im durchschnittlichen Virtualisierungs- und Cloud-Computing-Cluster im Jahr 2021 sicherlich noch die Ausnahme, in neuen HPC-Clustern eine übliche Option. RDMA für Storage? Im Jahr 2016 bereits in mehreren HPC-Dateisystemen die Standardeinstellung. All-Flash- und Computational Storage, Containerisierung, aber auch Wasserkühlung – all diese Technologien werden regelmäßig in HPC-Clustern bis an die Lastgrenzen gebracht und so quasi frei Haus auf Herz und Nieren getestet.

Natürlich ist High-Performance-Computing nicht vollends mit der Enterprise-IT vergleichbar: Beispielsweise wird Performance im HPC häufig höher gewichtet als Zuverlässigkeit durch Redundanz. Dies ist schlicht dadurch begründet, dass Daten im HPC in der Regel problemlos wiederherstellbar und Simulationen neu initiierbar sind – nicht umsonst spricht man hier regelmäßig vom „Scratchspeicher“.

Und auch wer für das Monitoring eines HPC-Clusters zuständig ist, hat eine andere Betrachtungsweise: Während ein Administrator in der Enterprise-IT-Welt bei mehr als 80 Prozent CPU-Auslastung regelmäßig ins Schwitzen kommen und neue Hardware anfordern dürfte, wird seine Kollegin im HPC-Monitoring eher bei unter 80 Prozent CPU-Auslastung ins Schwitzen kommen – heißt dies doch, dass nicht alle Queues sinnvoll ausgelastet werden.

Doch trotz der Differenzen lässt sich der Trend feststellen: Cloud und HPC nähern sich an! Dies wird zum einen sicherlich getrieben durch die unternehmerischen Erwägungen von Cloud-Anbietern und insbesondere Hyperscalern, denen die Anforderungen im High-Performance-Computing durchaus bewusst sind – liegt es doch in der Natur der Sache, dass eine HPC-Kundin eben nicht nur einzelne, sondern regelmäßig sehr viele und darüber hinaus hochperformant ausgestattete virtuelle Maschinen benötigen wird. Und das wiederum geht dann für den Anbieter in aller Regel auch mit einem hochperformant ausgestatteten Umsatz einher.

Doch neben den unternehmerischen Erwägungen der Anbieter gibt es auch die der Kunden: So braucht nicht jeder HPC-Anwender heute noch kontinuierlich HPC-Ressourcen, sodass sich die Anschaffung eines eigenen Clusters unter Umständen gar nicht lohnt.

Zusätzlich zu den unternehmerischen gibt es auch technische Gründe für die beschriebene Annäherung von Cloud und HPC: Wer etwa als Cloud-Anbieter Ressourcen (VMs, Storage, Netzwerk) abstrahiert zur Verfügung stellt, profitiert von leistungsstarken Hard- und Software-Set-ups – ermöglichen sie ihm doch mehr Ressourcen auf der gleichen Anzahl Hardware. Oder eben im Umkehrschluss die gleiche Menge virtueller Ressourcen auf weniger Hardware (eine Sichtweise, die leider allzu häufig vergessen wird).

Und hierbei ist es erst einmal unerheblich, ob man ein eigenständiger und kommerzieller oder (etwa als IT-Abteilung in einem größeren Unternehmen) ein interner Anbieter ist: Erhält man für den doppelten Preis das dreifache an Performance, profitiert man unterm Strich.

Und auch auf Seiten des High-Performance-Computings hat sich einiges getan: Waren HPC-Cluster früher etwa Software-seitige Monolithen (in dem Sinne, dass allen Nutzern exakt die gleichen Software-Versionen zur Verfügung standen), ermöglichen Container heute ein viel flexibleres Set-up – mit allen Annehmlichkeiten für Nutzer und Administratorin gleichermaßen. Darüber hinaus hat sich auch beim Credo „Performance vor Redundanz“ in den vergangenen Jahren in der HPC-Community einiges bewegt – merken die Nutzer und Nutzerinnen doch immer häufiger kurz vor einem wichtigen Call for Papers, dass ein zuverlässiger Storage im HPC-Cluster eine so schlechte Idee vielleicht doch nicht ist.

Daniel Menzel, Experte für Hochleistungsinfrastrukturen.
Daniel Menzel, Experte für Hochleistungsinfrastrukturen.
(Bild: Menzel IT GmbH)

*Der Autor: Daniel Menzel, Experte für Hochleistungsinfrastrukturen

Neugierig geworden? Dann melden Sie sich jetzt zur DSX 2021 Data Storage Conference am 7. Oktober 2021 an!

► Zur DSX 2021 Data Storage Conference anmelden

 

 

(ID:47600469)