Eine Software für 100 Milliarden Objekte Scality Object Storage für speicherhungrigen Superstar
Anbieter zum Thema
Das Kernforschungszentrum Los Alamos National Laboratory (LANL) betreibt einen der schnellsten Supercomputer der Welt. Um schnelle Analysen auf 30 Petabyte an Langzeitdaten ausführen zu können, setzt es auf „Scality Ring“, ein Software-defined Storage-System für Object Storage. Dieses liefert einen Datendurchsatz von 28,5 Gigabit pro Sekunde.

Der Cray-Supercomputer Trinity erlaubt der Behörde National Nuclear Security Administration (NNSA), die als Teil des Energieministeriums unter anderem für die Verwaltung des Atomwaffenarsenals der USA zuständig ist, eine Fülle von Simulationsmöglichkeiten. Die Leistung, die Trinity bietet, erlaubt erstmals auch feingranulare Berechnungen in drei Dimensionen.
Dementsprechend große Datenmengen müssen in kürzester Zeit verarbeitet werden. Der HPC-Cluster selbst verfügt über 2 Petabyte allein an Hauptspeicher mit internem Pufferspeicher, 200 CPUs und eine Rechenleistung von 40 Petaflops (Billiarden Gleitkommaoperationen pro Sekunde).
Vier Speicherebenen
Der Speicherhunger dieser Supermaschine ist nicht weniger anspruchsvoll. 48 Speicherknoten à 750 Terabyte stellen zudem Dateiübertragungsleistung bereit. So genannte File Transfer Agents sorgen im Speichersystem für schnelle und zuverlässige Datenübertragung.
Der schnellste Speicher besteht aus 3,7 Petabyte (PByte) Flash-Memory mit einem I/O von 3 PByte/s, aber die Daten werden nur für etwa einen Tag behalten. Der zweitschnellste Speicher stellt in einem "Lustre" Parallel Filesystem 78 PByte an Speicher auf Festplatten bereit. Sein Datendurchsatz liegt bei maximal 1,4 PByte/s. Diese Daten werden im Schnitt etwa eine Woche vorgehalten.
Worauf es wirklich ankommt, sind die Langzeitdaten im dritten Ring, denn dies ist der Object Storage Speicher, der für Kampagnen genutzt wird, also für Simulationen. Derzeit sind hier 3 PByte gespeichert, aber die Endausbaustufe soll 30 PByte umfassen.
Die Speicherdauer beträgt hierzwischen drei und sechs Monaten bis drei Jahren. Die Lösung dafür lieferte Scality, ein kalifornischer Spezialist für Software-defined Storage. Diese Lösung wurde vor rund neun Monaten mit dem separaten Trinity-Cluster gekoppelt.
Auf einer vierten Speicherebene legt das LANL bis zu 50 PByte an Langzeitdaten ab, doch jedes Jahr kommen 30 bis 40 PByte hinzu. Das Medium dafür sind Tape Librarys. Da diese Daten nicht kritisch sind und nie gelöscht werden, reicht ein Datendurchsatz von 1 bis 10 GB pro Sekunde.
Die Herausforderungen
Doch es gibt ein Problem, wie Kyle Lamb, stellvertretender Gruppenleiter für HPC-Infrastruktur am LANL, berichtet: "Wir mussten uns auf zwei Extreme an Speicherdurchsatz (I/O) einstellen. Manche Datasets umfassen Dutzende von Terabyte, andere wiederum Dutzende von Millionen Datasets in Kilobyte-Größe." Diese außergewöhnliche Variabilität führte zur Einführung mehrerer spezieller Technologien.
"Zunächst einmal brauchten wir wegen der Langzeitspeicherung ein hohes Maß an Zuverlässigkeit gegen versehentliches Löschen oder Überschreiben", fährt Lamb fort. "Dafür wählten wir Object Storage, der uns Erasure Coding in unbegrenztem Speicherumfang bieten konnte. Die Wahl fiel deshalb auf die Ring-Software Lösung von Scality."
Erasure Coding, ein Verfahren zur Fehlerkorrektur beziehungsweise -vermeidung, das dafür sorgt, dass sich fragmentierte und verteilte Dateiobjekte wieder fehlerlos zusammenführen lassen. "Das Verfahren ähnelt RAID, ist aber viel schneller", so Lamb. Die Fehlerkorrektur-Kalkulation erledigen die erwähnten File Transfer Agents.
Diese Zuverlässigkeit und Schnelligkeit bedeutet, dass der Rebuild solcher verteilten Datenobjekte performanter ist. "Ein Rebuild von 30 Terabyte Daten dauert nun nicht mehr 30 Stunden, sondern erfolgt in wesentlich kürzerer Zeit – und das bei höherer Persistenz und Dauerhaftigkeit der Speicherdaten", freut sich Lamb. Eine Wiederherstellung von mehreren Petabyte hätte Wochen gedauert. "Mit Scality Ring geht das in zwölf bis 24 Stunden."
Eine Simulation kann immerhin bis zu 1 PByteyte an Daten erfordern. Deshalb gab es eine neue Herausforderung: Das Filesystem konnte sich als Flaschenhals erweisen. Gebraucht wurde eine Lösung, die einen Datendurchsatz von an die 30 GByte/s liefert. Die Lösung: LANL und Scality entwickelten zusammen ein neues Filesystem.
Das Filesystem MarFS
"MarFS ist ein virtuelles, paralleles Filesystem mit einer Posix-Programmierschnittstelle, das von IBMs GPFS abgeleitet ist", erläutert Lamb. "Wir haben mehrere GPFS zusammengefügt, so dass in jedem Metadaten-Server 16 Millionen Objekte verwaltet werden können", so Lamb. "Die Kapazität von Ring ist theoretisch unbegrenzt", ergänzt Leo Leung, der Marketingleiter bei Scality. "Manche unserer Kunden in der Industrie verwalten damit 100 Milliarden Objekte."
MarFS organisiert den Zugriff auf Objekt-Metadaten , indem es Instanzen als Dateien in GPFS anzeigt. Diese Metadaten wiederum verweisen auf viele Instanzen kleiner 1 GByte großer Teilstücke einer Datei, die aber in Ring als Objekte gehalten werden. "Das Schöne an MarFS und RING ist die Möglichkeit, viele kleine Dateien zu Paketen zusammenzufassen, aber große Dateien aufteilen zu können", sagt Lamb. So bekommt man eine gleichbleibend hohe Performance pro Knoten, die das Netz nicht über- oder unterfordert.
Der Name MarFS ist von "mar", dem spanischen Wort für Meer abgeleitet, denn mit diesem quelloffenen Filesystem wird ein Data Lake verwaltet. Ein Data Lake ist ein großes Speicher-Repository auf Object-Storage-Basis. Es verwaltet Daten in deren Ursprungsformat, bis sie benötigt werden, und verarbeitet sie mit hoher Leistung.
Dabei verarbeitet das System "nahezu unbegrenzt viele" gleichzeitige Aufgaben. Ein Beispiel dafür ist Apache Hadoop. MarFS auf Scality RING verwaltet also einen Data Lake auf Object Storage Basis.
MarFS bietet dem Anwender eine virtualisierte Sicht auf seine Speicherumgebung sowie einen globalen Namespace für POSIX- und Non-POSIX-Daten-Repositorys, inklusive des Scality RING. "MarFS liefert uns zwei Vorteile", erläutert Lamb. "Während die mit POSIX ((Portable Operating System Interface vertrauten Anwender leicht damit umgehen können und ihre Anwendungen nicht umschreiben müssen, erhalten wir eine skalierbare Infrastruktur, die über Persistenz und Dauerhaftigkeit verfügt." Leo Leung ergänzt: "Die mehrschichtige Speicherstruktur beim LANL belegt ein großes Knowhow bei den Technikern."
* Michael Matzer ist freier Fachautor in Stuttgart.
(ID:44101104)