Suchen

Neue Funktion im Panasas-Filesystem Ziel: konstant hohe Performance

| Autor / Redakteur: Michael Matzer / Dr. Jürgen Ehneß

Das PanFS für HPC und AI Workloads verfügt seit Kurzem über die neue Funktion „Dynamic Data Acceleration on PanFS“. Diese Steuerungsfunktion soll die Datenspeicherungsvorgänge auf ActiveStor Ultra Appliances beschleunigen, indem sie den Speichermedien wie SSDs und HDDs zu höherer Effizienz verhilft.

Eine höhere Effizienz bei Speichermedien will Panasas mit der neuen Funktion „Dynamic Data Acceleration on PanFS“ erreichen.
Eine höhere Effizienz bei Speichermedien will Panasas mit der neuen Funktion „Dynamic Data Acceleration on PanFS“ erreichen.
(Bild: gemeinfrei / Pixabay )

Im Hochleistungsrechnen (HPC: High Performance Computing) sind die Nutzer normalerweise gezwungen, ihre Rechen- und Storage-Systeme auf die jeweilige Workload eines Projektes abzustimmen, damit die Laufzeit eines Rechenjobs einigermaßen vorhersagbar ist. Dass im HPC für einen solchen Rechenjob Stunden, Tage oder mehr vonnöten sind, ist nicht unüblich, etwa in der Wettervorhersage oder beim Berechnen von Strömungsdynamik. Auch in Machine Learning und Deep Learning (aus der Welt der Künstlichen Intelligenz/KI) fallen durch die hohe Zahl von Trainingsvorgängen erhebliche Speichermengen an, von den Trainingsdaten selbst ganz zu schweigen.

Bildergalerie

Außerdem spielt es eine Rolle, ob bei einem HPC- oder KI-Job viele kleine Dateien anfallen oder wenige große. Für eine hohe Anzahl kleiner Dateien sind Lösungen wie etwa von Qumulo ausgelegt, aber es gibt auch parallel arbeitende Filesysteme wie PanFS von Panasas, die sowohl kleine als auch große Dateien verarbeiten können. Es wird in einer x86- und Linux-basierten Appliance angeboten. Das neue Leistungsmerkmal Dynamic Data Acceleration on PanFS (DDA) soll dem Nutzer des Systems das manuelle Einstellen von Storage-Vorgaben je nach Workload abnehmen.

Hierarchische Speicherverwaltung (Tiering)

In einem handelsüblichen Speichersystem wird Tiering je nach Zugriffshäufigkeit angewandt. Dabei werden die „heißesten“ Daten auf den schnellsten Medien, also NVMe-SSDs abgelegt, die „kältesten“ auf langsameren Festplatten. Im PanFS-Dateisystem mit DDA richtet sich diese Vorgabe jedoch nach der Dateigröße. NVMe-SSDs speichern Metadaten, die alle Transaktionen verzeichnen, SSDs speichern kleine Dateien, und große Dateien landen auf preisgünstigen Festplatten mit hoher Bandbreite.

Indem die Verschiebung von Dateien zwischen SSDs und Festplatten dynamisch gesteuert und das volle Potential von NVMe ausgeschöpft wird, soll PanFS nicht nur die höchstmögliche Leistung für HPC- und KI-Workloads zu vertretbaren Betriebskosten liefern, sondern auch, was ebenso wichtig ist, auf konsistente, vorhersagbare Weise.

Algorithmus für zwei Logs

Damit DDA automatisch diese Arbeiten erledigen kann, überwacht ein Algorithmus im Orchestrator, wie und wo einerseits Metadaten und andererseits Speicherdaten abgelegt werden: im Metadata Store (NVMe-SSDs) beziehungsweise im Data Store (SSDs und HDDs). Der DDA-Algorithmus überwacht oberhalb der Speicherebene, was in den zwei Logs passiert, die a) Transaktionen (TXN Log) im Metadata-Store und b) im DataStore-Log (Intent Log) protokollieren. Die Metadaten werden in einer Datenbank auf NVMe-Flash gespeichert. Die Daten selbst werden, wie gesagt, auf SSDs und Festplatten verteilt.

Die beiden Logs sind auf einem Memory-Stick implementiert, der 16 GB persistenten RAM auf sogenannten NVDIMMs bereithält. Die RAM-Zugriffszeit liegt bei 60 Nanosekunden, was 2.560-mal schneller sei als bei NVMe-Flash-Speicher, wie der Panasas-Software-Architect Curtis Anderson im Gespräch erläuterte. So gelingt es dem DDA-Algorithmus, die zwei Logs und die Metadaten zu nutzen, um die in den SSDs und Festplatten abgelegten Dateien optimal und in kürzester Zeit zu verwalten.

So weit also die logische Kommandostruktur. Nun kommt die eigentliche Arbeit, die DDA verrichten lässt. Der DDA-Algorithmus steuert die Sweeper-Software, die die eigentliche Verteilung der kleinen Dateien vornimmt. Die Regel lautet, wie folgt: Um die Auslastung der SSDs bei etwa 80 Prozent ihrer Kapazität zu halten, bewegt der Sweeper kleine Dateien auf dieses Medium.

80-Prozent-Marke

Der Sweeper sei dabei sehr effizient, denn er verfüge über direkten Zugriff auf die interne Datenbank, die sämtliche Objekte, die auf dem Storage Node abgelegt sind, verfolgt und überwacht. Und auf transparente Weise bewege der Sweeper Objekte zwischen Festplatten und SSDs, um diese 80-Prozent-Marke zu halten. Ist eine SSD zu 80 Prozent voll, verlegt der Sweeper die größten Dateien auf Festplatte. Ist eine Festplatte „nur“ zu 70 Prozent voll, verlegt der Sweeper die „kleinsten“ Dateien auf die schnelleren SSDs.

Abbildung 1: Das neue Leistungsmerkmal „Dynamic Data Acceleration“ ist auf der Steuerungsebene des parallelen Filesystems PanFS angesiedelt.
Abbildung 1: Das neue Leistungsmerkmal „Dynamic Data Acceleration“ ist auf der Steuerungsebene des parallelen Filesystems PanFS angesiedelt.
(Bild: Panasas)

„DDA verwaltet die Verlegung von kleinen Dateien zwischen SSDs und HDDs, um die Zugriffsleistung sowie die Performance von Workloads, die mit kleinen Dateien arbeiten, zu erhöhen, indem sie sie von Streaming-Workflows isoliert hält“, erläutert Curtis Anderson.

Das Filesystem, das die Defragmentierung von Dateien erledigt, gehört nicht zu PanFS, sondern zum von Panasas angepassten SUSE-Linux-Betriebssystem. Es ist im Architekturdiagramm (siehe Abbildung 1) als „F/S“ bezeichnet.

Geringere Betriebskosten

Was die Performance anbelangt, so hat Panasas einen Benchmark-Test durchgeführt, in dem es gegenüber Mitbewerbern wie GPFS, Lustre und BeeGFS glänzend abschneidet.

Auf Dauer sind jedoch für den Betreiber eines HPC-Speichersystems vor allem die laufenden Betriebskosten relevant. Man hat bei zwei Ebenen von Speichermedien (SSD, HDD) einen permanenten Aufwand für das Verschieben von Dateien, das manuelle Tuning für sich ständig ändernde Workloads, eine gewisse Downtime und so weiter zu berücksichtigen. PanFS handhabt alle diese Aufgaben automatisch, ohne dass ein Admin eingreifen müsse, sagt Curtis Anderson.

Neue Anbieter wie das Start-up WekaIO bieten ihren Kunden einen scheinbaren Vorteil, indem sie „heiße“ Dateien in schnellen NVMe-SSDs ablegen, die großen „kalten“ Dateien aber in einem großen S3-basierenden Object-Store-Data-Lake beim Kunden selbst abspeichern. Beim britischen WekaIO-Kunden Genomics England liegen 1,3 Petabyte auf NVMe-SSDs, wohingegen die verfügbaren 40 PB in der hauseigenen Kunden-IT auf Festplatten gespeichert sind. Automatisches Tiering findet zwischen NVMe-SSDs und dem S3 Data Lake statt. Das Verschieben von den langsamen, aber kostengünstigen Festplatten auf NVMe-SSDs muss derzeit noch manuell initiiert werden. Obwohl die Notwendigkeit dafür nicht so häufig auftritt, so wiegt doch schwerer, dass der Zugriff von schnellen SSDs auf die „langsamen“ Festplatten das System ausbremst: Der Durchsatz liege bei nur 150 GB/s, der eines Panasas-DDA-Systems dagegen bei 410 GB/s, bei verfügbaren 41 PB.

Hinsichtlich der jeweiligen Betriebskosten hat Panasas berechnet, dass die Lösung von WekaIO für seinen Kunden Genomics England etwa 400 US-Dollar pro Terabyte kostet. Das Panasas-DDS-System kenne keine „langsamen, leistungsschwachen“ Medien, denn DDA gleiche den Unterschied aus und hebe das System auf ein gemeinsames, hohes Performanceniveau. Der Preis pro Terabyte liegt laut Anderson bei 200 US-Dollar. DDA liefere somit einen signifikanten monetären Vorteil, wenn beim Kunden PanFS eingesetzt werde.

Bildergalerie

(ID:46851218)

Über den Autor