Verteiltes Dateisystem von Qumulo nun auch für Container

Qumulo zertifiziert Kubernetes Verteiltes Dateisystem von Qumulo nun auch für Container

13.04.2022Von Dipl. Phys. Bernd Schöne

Qumulo hat sich darauf spezialisiert, Kunden mit großen NAS-Speichersystemen ein verteiltes Dateisystem zur Verfügung zu stellen. Der etwas schwer memorierbare Name leitet sich von „Kumulus“ ab, jenen fotogenen Haufenwolken, die seit langem Maler faszinieren. Ein diskreter Hinweis darauf, dass sich das Filesystem „Qumulo File Fabric“ des Unternehmens auch in der Cloud wohlfühlt.

Anbieter zum Thema

DataCore Software GmbH

FAST LTA GmbH

Qumulo GmbH

Für die immer beliebteren Container-Lösungen in Rechenzentren bietet Qumulo nun auch einen Kubernetes-Treiber für sein Filesystem an.
(Bild: gemeinfrei / Pixabay )

Ab 100 Terabyte Daten gehört man zum potenziellen Kundenkreis des 2012 gegründeten US-Datenspeicherunternehmens Qumulo mit Sitz in Seattle im Bundesstaat Washington. Die Firma bietet ihm ein Software-Abo an, denn kaufen kann man das Filesystem nicht. Dafür sind alle Neuerungen und Updates im Preis enthalten. Ab sofort ist auch der Treiber für Kubernetes mit im Angebot. Dieses richtet sich an die Nutzer der immer beliebter werdenden Container-Lösungen in Rechenzentren.

Container sind abgespeckte virtuelle Rechner, die statt eines kompletten Betriebssystems nur wichtige Teile davon enthalten. Den Rest erledigt das Betriebssystem des Servers, auf dem die Container laufen. Die Applikationen sind ähnlich abgeschirmt wie bei virtuellen Maschinen, wenngleich weniger stark. Container-Cluster arbeiten als Ausgleich schneller und flexibler als klassische virtuelle Maschinen.

Wer Qumulo-Kunde ist, kann nun Kubernetes denkbar einfach nutzen. Der Administrator installiert die CSI-Treiber (Container Storage Interface) in seinem Kubernetes-Cluster und richtet dabei dynamische Volumes ein. Dadurch wird der Zugriff auf den externen Qumulo-Speicher für alle containerisierten Anwendungen ermöglicht.

Kunden, die Kubernetes nutzen, können jetzt ihre Container mit Qumulo wahlweise On-Prem oder aber in der öffentlichen, privaten oder hybriden Cloud verbinden und dabei mehrere Protokolle von einem Namespace aus unterstützen. Mit Kubernetes können Benutzer ganze Gruppen von Hosts, auf denen Container laufen, zu Clustern zusammenfassen und diese Cluster einfach und effizient verwalten.

„Der neue CSI-Treiber von Qumulo ermöglicht es Kunden, unstrukturierte Daten einmalig zu speichern und sie einer beliebigen Anzahl nativer Anwendungen sowie Container-basierter Micro-Services zur Verfügung zu stellen. All dies ist möglich, ohne Daten zu verschieben, in unterschiedliche Systeme zu kopieren oder Workloads zu ändern. Kunden, die ihre Daten auf Qumulo speichern, können sich ganz auf die Entwicklung moderner Anwendungen konzentrieren und müssen sich nicht mehr mit dem Verschieben oder Verwalten ihrer Daten auseinandersetzen“, erläutert Ben Gitenstein, Vice President of Product bei Qumulo.

Wenig administrativer Aufwand

Dies ist von besonderer Bedeutung für Unternehmen, die containerisierte Infrastrukturen zur Ausführung von Analyse-Workloads nutzen möchten. So kann beispielsweise ein Einzelhändler, der Container On-Demand einsetzt, um lokalisierte Analysen mit seinen Betriebsdaten durchzuführen, diese Anwendungen nun mit seinen Betriebsdaten auf der Qumulo-Speicherplattform verbinden. Dies wiederum ermöglicht es dem Kunden, Probleme über das „Qumulo Analytics Dashboard“ für alle Speicher- und Dateinutzungsdaten zu überwachen, zu warten sowie Fehlerbehebungen zu veranlassen.

Speichervirtualisierung mit Containern – in Kubernetes mit Hilfe von OpenEBS umsetzbar. (gemeinfrei)

Dass Qumulo es seinen Kunden ermöglicht, nun auch mit hoher Performance und ohne großen administrativen Aufwand Container nutzen zu können, ist in gewissem Sinn nur folgerichtig. Die Firma wendet sich mit ihrem Filesystem an Kunden, die eine so große Anzahl an Nutzern und Files administrieren müssen, dass es für die Administratoren kaum zu bewältigen ist. Wunder darf der Kunde nicht erwarten. Wer genug Wissen, Können und Zeit investiert hat, konnte sich auch in der Vergangenheit behelfen. Nun geht alles etwas schneller.

Eine große Motivation, Qumulo zu entwickeln, bestand im Wesentlichen darin, folgende Probleme und Herausforderungen existierender Lösungen zu beheben:

die limitierte Anzahl von Dateien in herkömmlichen Dateisystemen,

die Notwendigkeit von Treewalks,

die mangelnde Realtime-Analyse interner Telemetriedaten und Visualisierung wichtiger Performance-Kennzahlen sowie

die Komplexität administrativer Aufgaben im Kontext exponentiell wachsender Datenmengen.

Unstrukturierten Daten gehört nach der Meinung des Qumulo-Gründers und ehemaligen -CTOs Peter Godman die Zukunft. Alleine in Produktionsumgebungen fallen tägliche Unmengen davon an, und je stärker IoT wächst, desto mehr Daten werden erfasst, gespeichert und irgendwann auch verarbeitet. Sie dienen zum Beispiel zum Training von KI-Systemen, die autonomes Fahren ermöglichen.

Als Dateisystem der jüngsten Generation hat die Firma „nach oben“ genug Luft eingebaut, um für die kommenden Jahrzehnte gerüstet zu sein. Es gibt derzeit folgende technische Limits für das Filesystem, wie Stefan Radtke, Field CTO EMEA, erläutert:

maximale Anzahl Files: 18 Quintillionen,

maximale Anzahl Files pro Directory: 4,25 Milliarden,

maximale Dateigröße: 9 Exabyte.

Das dürfte zunächst genügen. Von der Leistungsfähigkeit zum Beispiel profitieren Zeichentrickstudios, die Milliarden Files in einem Directory benötigen. Firmen aus dem Entertainment-Bereich gehören generell zu den bekannten Nutzern der Firma. Sie verwenden die Qumulo-Lösung, um Künstlern Zugriff auf das entstehende Werk zu gestatten – und das gerade auch aus der Ferne. Es gehört nach Angaben der Firma zu den Alleinstellungsmerkmalen von Qumulo, ohne zusätzlichen Aufwand für den Administrator wahlfreien Zugriff auf die Speicherinhalte zu gewährleisten, unabhängig von den verwendeten Protokollen. Qumulo kommt mit FTP, SMB und NFS klar, ohne dass Anwender oder Administratoren eingreifen müssen. Das Erzeugen mehrfacher Kopien, um auf diese mit verschiedenen Protokollen zugreifen zu können, ist nicht mehr notwendig.

„Vordefinierte“ Hardware zertifizierter Hersteller

Im Markt verfügbare, verteilte Dateisysteme für große Datenmengen sind häufig sehr kompliziert und erfordern ein hohes Maß an Know-how sowie hohen Implementierungs- und Wartungsaufwand. Qumulo stellt als wesentliches Merkmal seiner Lösung die Einfachheit bei Installation, Wartung und Betrieb heraus und zertifiziert die zu verwendenden Server in einem aufwändigen Design- und Qualitätsprozess. Die zertifizierten Systeme sind bereits hinsichtlich Performance, Verfügbarkeit, Ausfallsicherheit und Wartbarkeit optimiert, sodass der Kunde sich hierüber keinen Kopf mehr zerbrechen muss.

Während der Installation erkennt die Software entsprechend die „vordefinierte“ Hardware und kann sich somit selbständig installieren und konfigurieren. Derzeit sind verschiedene Systeme folgender Hersteller und OEM-Partner zertifiziert: HPE, Fujitsu, Supermicro, Arrow. Zudem lässt sich die Software einfach in den Cloud Umgebungen der drei Hyperscaler AWS, Google und Azure installieren.

Die erste bedeutende OEM-Partnerschaft und Vertriebskooperation ging Qumulo 2017 mit HPE ein. Seitdem wächst diese Partnerschaft kontinuierlich; mehrere tausend Systeme wurden nach Angaben des Unternehmens weltweit installiert. Später kamen als weitere Partner Fujitsu und Arrow hinzu. Die jüngste Kooperation mit Supermicro – einem der weltweit größten Serverhersteller – wurde im vergangenen Jahr geschlossen.

Das explosive Wachstum unstrukturierter Daten zwingt auch den Mittelstand zu Software-Defined Storage. (gemeinfrei)

Auch geografisch wächst das Qumulo-Team stetig. Seit 2018 werden sowohl das Sales-Team als auch die Teams Systems Engineering und Solutions Architect in EMEA (Europa, Middle East und Afrika) aufgebaut. Heute hat Qumulo in Europa etwa 50 Mitarbeiter.

Qumulo zählt unter anderem auch den Mitteldeutschen Rundfunk (MDR) zu seinen Kunden. Dieser modernisierte sein Content-Management-System und erhöhte seinen zentralen Videospeicher von 380 Terabyte auf 2,1 Petabyte. Gleichzeitig befreite man sich von einer proprietären, herstellergetriebenen Lösung. Getrieben wurde die Entscheidung unter anderem von Hardware, die nicht mehr lieferbar war. Nicht wenige Neukunden verdankt die Firma der Pandemie. So musste das kanadische Unternehmen Industrial Brothers Studio mit Sitz in Toronto im Jahr 2019 binnen kürzester Zeit alle Arbeitsplätze des Animationsstudios in die Cloud verlagern, da die Regierung aufgrund der Pandemie einen Lockdown für nicht systemrelevante Unternehmen verfügte. Innerhalb von drei Wochen wurde eine Umgebung geschaffen, die verteiltes Arbeiten vom Homeoffice aus ermöglichte.

Automatische Datenauslagerung

Um die geforderte hohe Performance zu garantieren, fordert Qumulo schnelle SSD-Laufwerke für den Cache. „Kalte“, also weniger oft verwendete Daten werden automatisch auf langsamere, aber kostengünstigere HDDs ausgelagert. Dieses Feature verwendet einen Algorithmus, der Künstliche Intelligenz nutzt, um so die Verwaltung großer Installationen weiter zu vereinfachen. Bei Tausenden von Nutzern erledigt die KI diese Aufgabe weit effektiver als ein Mensch.

Verteilte Dateisysteme stellen hohe Anforderungen an die Netzwerkinfrastruktur. Das Dateisystem muss permanent den Speicherort der einzelnen Blöcke protokollieren, was zu beträchtlichen Netzwerkbelastungen führen kann. Bei der Netzwerkinfrastruktur hat der Kunde im Prinzip die freie Auswahl, die Switches müssen aber das IPv6-Protokoll unterstützen, und alle Ports müssen non-blocking sein. Der kleinste Einstieg: vier Qumulo-Knoten, von denen jeder üblicherweise mit zwei Netzwerkports mit 25 oder 100 Gbit/s angebunden wird.

Ein Qumulo-Cluster verfügt über mehrere Redundanzebenen und eine hohe Verfügbarkeit. Soll der Ausfall eines ganzen Rechenzentrums im Katastrophenkonzept abgedeckt werden, kann das durch asynchrones Replizieren auf ein entferntes System erfolgen. Das Zielsystem kann sich in einem Rechenzentrum oder in der Cloud befinden. Für diesen Fall ist zu berücksichtigen, wie weit die Clients (die Desktop- oder Compute-Systeme) vom Cluster entfernt sind. Als Faustregel gelte, dass die Roundtrip-Zeit für Datenpakete eine Millisekunde pro 100 Kilometer betrage, erklärt Dr. Stefan Radtke, CTO für Qumulo in Europa.

Die Datenflut ist eines der aktuell größten Storage-Probleme – wenn nicht die Herausforderung schlechthin. (© Konstantin Hermann - stock.adobe.com)

Für die meisten Anwendungen, die mit unstrukturierten Daten arbeiten, ist das noch akzeptabel. Sollen mehrere hundert Kilometer überbrückt werden, bietet es sich an, die Clients auch in den entfernten Standort oder die Cloud zu verlagern, sodass die Latenzen zwischen Anwendung und Speichersystem niedrig bleiben. Solche Lösungen sind nicht für den Fall eines Desasters interessant.

In der aktuellen Pandemie mussten Lösungen dafür gefunden werden, wie geografisch verteilte, datenintensive Teams und Projekte zusammenarbeiten können. Beispiele hierfür sind das Editieren von Videos und Filmen oder die Zusammenarbeit von Ingenieuren mit Blick auf CAD-Projekte. Für solche Probleme bietet Qumulo auch Referenzarchitekturen an. Beispielsweise hat Qumulo mit StudioQ eine Lösung parat, die das Aufsetzen einer kompletten Umgebung für Videoarbeitsplätze samt Workstations und Cluster in der Cloud ermöglicht und laut Hersteller innerhalb von etwa einer Stunde betriebsbereit installiert werden kann.

Wie der Name bereits sagt, versteht Qumulo sich aber ausdrücklich auch als Lösung für Cloud-Anwendungen. Hier ist die Qualität der lokal vorhandene Internetanbindung gefordert, wenn aus Gründen der Redundanz parallel Rechenzentren an weit entfernten Standorten genutzt werden sollen.

Aktuelles eBook

Herausforderungen für den Speicher: Big Data

Storage-Systeme für große Datenmengen

Bei der Speicherung von Big Data wird zunehmend auf Data Lakes zurückgegriffen, doch genügt es nicht, die eintreffenden Datenströme einfach dorthinein zu kippen – dann würde daraus schnell ein „Data Swamp“. Lesen Sie im eBook, wie Sie optimal mit großen Datenbergen umgehen können und wie die entsprechenden Daten optimal für die Bearbeitung bereitgestellt werden können.

Die Themen im Überblick:

Big Data und Storage-Systeme
Aus Big Data Wert schöpfen
Wohin mit den unstrukturierten Daten?
Von der lokalen Appliance über Cloud Provider bis in die Hybrid Cloud

eBook „Storage-Systeme für große Datenmengen“ kostenlos downloaden

(ID:48164971)