Kommunizierende Speichermedien für Petabytes

Hyperscale Elastic Distributed Virtual Integral Granular

| Autor / Redakteur: Ariane Rüdiger / Rainer Graefen

(Ariane Rüdiger)

Durch Techniken wie Social Media oder IoT entstehen immer mehr Daten in unstrukturierten Formaten. Das Startup Hedvig hat ein neue Software-definierbare Speicherplattform entwickelt, die unabhängig von Speichertechnik und Datenformat arbeitet.

Laut Forrester wachsen die Datenmassen rund zehnmal schneller als die Speicherbudgets, in weniger als einem Tag können nur 42 Prozent der Anwender Speicher provisionieren.

Nur 14 Prozent stellen Speicher mit Cloud-ähnlichen Techniken zur Verfügung. Dabei ließen sich viele interessante Ideen umsetzen, wenn die Speichertechnik entsprechend mitspielen würde.

Das Alte ist der Feind innovativer Ideen

Bob Whiteley, Vice President Marketing des Startups Hedvig: "Wenn man zum Beispiel eine Anwendung plant, bei der es möglich ist, einen Scheck mit dem Mobiltelefon zu fotografieren und das Foto anstelle des Papierschecks zur Verrechnung schickt, dann braucht man eine komplett andere Speicherinfrastruktur als heute bei den meisten Unternehmen installiert ist." Für den Umgang mit Massen solcher Datenobjekte, wie den Scheck-Fotos sind sie schlicht nicht eingerichtet.

Diesem und ähnlichen Problemen soll Software-defined Storage abhelfen. Die Technik verspricht mehr Flexibilität und Skalierbarkeit, Umgang mit unterschiedlichen Datentypen und schnelle Anpassung an die Ansprüche beliebiger Applikationen.

Doch oft genug sehen die Lösungen, die Hersteller unter diesem Label anbieten, nur aus wie alter Wein in leicht erneuerten Schläuchen: Meist steckt viel proprietäre Speicher-, Server- und alte Softwaretechnik in ihnen. Tatsächlich neuartige Produkte werden häufig zögerlich entwickelt und vermarktet, da etablierte Hersteller nun einmal ungern ihre bestehenden Erzeugnisse kannibalisieren, so lange sich noch ein Käufer findet.

Fast ein Alleskönner

Unternehmen wie Google oder Facebook haben es da leichter. Sie sind so groß, dass sie einfach neue Verfahren einfordern oder gleich selbst entwickeln. Eine neue Generation von Startups, oft gegründet durch ehemalige Mitarbeiter solcher Unternehmen, versucht nun, diese Techniken in die Fläche zu bringen.

Ein Beispiel dafür ist Hedvig. Gründer Avinash Lakshman, der seine 2012 gegründete neue Firma erst im März des laufenden Jahres der Öffentlichkeit präsentierte, war von 2004 bis 2007 bei Amazon für Cassandra-Storage und später bei Facebook ebenfalls für Speicher zuständig. Lakshman: „Bei Facebook haben nur vier Mitarbeiter den Speicher des gesamten Messaging-Systems verwaltet.“

Eine durch diese Erfahrungen inspirierte Lösung, gepaart mit Enterprise-spezifischen Ansätzen, ist Hedvig: Standardserver plus Hedvig-Software ergeben eine verteilte, bis weit in den Petabyte-Bereich skalierende Speicherplattform für Blocks, Files und Datenobjekte beliebiger Größe. Hedvig lässt sich an jede Rechen- oder Cloud-Ressource anbinden, ist agnostisch gegenüber der auf den zugreifenden Servern verwendeten Hypervisoren, Containern oder Betriebssystemen und bietet für jede definierte Speicherressource alle wichtigen Enterprise-Features.

Ceph hat so seine Schwächen

Diese fehlten, so Richard Dyke, EVP Sales, nämlich vielen innovativen Speicherlösungen: „Ceph und Inktank bekommen Leistungsprobleme, andere können beispielsweise keine Snapshots“, erklärt Richard Dyke, EVP Sales. Die Verwaltung von Hedvig kann am PC- aber auch von beliebigen mobilen Devices erfolgen.

Den Kern der Hedvig-Plattform bildet der Hedvig Storage Service, eine patentierte Speicher-Engine, die die Speichermedien und die gespeicherten Daten verwaltet, etwa deren Vollständigkeit und Unverfälschtheit überwacht. Eine Schicht darüber eröffnen ein Storage-Proxy und ein RESTful-API den Zugriff auf die Daten von Servern beliebiger Betriebssysteme und Virtualisierungstechnologien von Hypervisoren bis zu Docker-Containern aus.

Die Verwaltung wird radikal vereinfacht: Administratoren provisionieren aus dem Hedvig-Pool via Anwenderschnittstelle, Befehlszeile oder RESTful-API eine virtuelle Disk, die als Speicherressource für eine bestimmte Anwendung dient. Für jede virtuelle Disk lassen sich ihrer Speicheraufgabe gemäße Regeln, etwa Verschlüsselung, Blockgröße (von 512 Byte bis 64 KByte), Deduplizierung, Kompression, Replizierungs-Häufigkeit, Caching, Thin Provisioning etc. individuell definieren und bei Bedarf über dieselbe Schnittstelle jederzeit ändern.

Eine Frage der Präsentation

Die virtuelle Disk wird dem Hedvig-Proxy als Controller zugewiesen. Er kann sich logisch auf dem Server, in einer virtuellen Maschine oder in einem Docker-Container befinden. Eine virtuelle Disk lässt sich auch mehreren Controllern zuweisen, was die Verschiebung der entsprechenden virtuellen Disks zwischen den jeweiligen Knoten innerhalb der Hedvig-Umgebung, zum Beispiel mit vMotion, ermöglicht.

Neben den bereits unterstützten Schnittstellen iSCSI, NFS, S3 und Swift steht auch SMB 3 auf der Entwicklungsliste. Die Kommunikation nach außen erfolgt derzeit, wie bei Standardservern als Hardware nicht anders zu erwarten, über 1- oder 10-GBit/s-Ethernet.

Die virtuelle Disk präsentiert nun je nach angewendeten Regeln dem Storage-Proxy Disk-, File- oder Block-Storage. Der Proxy bearbeitet alle Ein-/Ausgabevorgänge und kommuniziert sie an den darunterliegenden Cluster. Dort werden die Daten durch die Storage-Service-Schicht innerhalb des Clusters repliziert, über Racks, Rechenzentren und angeschlossene Cloud-Ressourcen hinweg in Tiers aufteilt und die Last wird verteilt. Bis zu sechs Replikationen sind möglich. Tests hätten allerdings ergeben, so Dyke, dass das Optimum bei drei Replikationen liege.

Kunterbunter virtualisierter Medienmix

Die Serviceschicht behält auch im Auge, wo auf der physischen Infrastruktur die Teile welcher Virtual Disk genau gespeichert sind und ordnet sie entsprechend zu. Werden Speichermedien, etwa bei Ausfällen, ausgetauscht, verteilt die Serviceschicht die Daten automatisch neu und stellt die Daten wieder her, die sich auf der ausgefallenen Ressource befunden haben.

Jeder Speicherknoten hält bei Hedvig Daten und Metadaten. Virtuelle Disks haben als minimale logische Speichereinheit Container zu 16 GByte, um auch große Objekte fassen zu können. Nicht gefüllte Container können aber von anderen Containern genutzt werden, überlaufende Container können weitere Container benutzen, so dass kein Speicherplatz verschwendet wird.

Außerdem ist es möglich, hyperskalierende und hyperkonvergente Ansätze zu fahren: Bei hyperskalierender Architektur befinden sich die Anwendungen auf separaten physischen Servern und sind über Netzwerkressourcen an das Hedvig-System angebunden. Bei hyperkonvergenter Architektur können Applikationen als virtuelle Maschinen direkt auf Speicherservern laufen, so dass Compute- und Storage-Ressourcen simultan skalieren.

„Wir sind eine Schnittmenge aus virtuellen SANs, monolithischen Arrays, aktuellen SDS-Techniken und hyperkonvergenten Systemen“, erklärt Richard Dyke, Vice President Sales. Mit Hedvig lassen sich Systeme mit mehr als 1000 Knoten konstruieren. Im Gegensatz zu den üblichen Systemarchitekturen führe Wachstum bei Hedvig nicht zu Leistungsproblemen. Dyke: „Wächst ein Hedvig-System, wird es immer besser.“

Wer will denn da noch in die Cloud

Da alle Arten von Speicherplatten einschließlich Flash-Storage sowie Public-Cloud-Ressourcen unterstützt werden, ist es möglich, Knoten mit größerer Rechenleistung für mehr Speed, Knoten größerer Speicherkapazität für mehr Speicherraum sowie Knoten oder Cloud-Ressourcen mit kostengünstigeren Speicherplatten für nachgelagerte Speicheraufgaben zu mischen. Das drücke die ausufernden Speicherkosten.

Dyke: "Eine Serverbox, die mit Disks vollgepackt ist, gibt es beispielsweise bei Supermicro schon für 5.000 US-Dollar." Durch das Verteilungsverfahren seien Datenverluste innerhalb eines Hedvig-Systems unmöglich, so das Management des Unternehmens. Deshalb entfielen bei Hedvig-Nutzern zeitaufwändige Aufgaben wie Datenmigration und -wiederherstellung, Speicheranforderungen durch geplante neue Services oder Applikationen, die umzusetzen in der Regel immer noch viel zu lange dauert, werden erheblich beschleunigt.

Als Zielgruppe sieht CEO Lakshman Cloud-Provider und Unternehmen – zumal immer mehr interne IT-Abteilungen sich ebenfalls als interner Cloud-Provider aufstellen oder bei Hybrid-Cloud-Umgebungen partiell externe Ressourcen nutzen. Besonders hilfreich sei Hedvig in Big-Data- und Virtualisierungsumgebungen.

Im Einsatz ist das Produkt derzeit beispielsweise bei dem niederländischen Bildungsanbieter van Dijk, der seine Applikationen damit wieder sicher im eigenen Haus verwaltet, Dovilo, einem ebenfalls in den Niederlanden beheimateten Anbieter von Cloud- und Softwareservices, wo bis zu 1 TByte Datenwachstum pro Stunde zu verkraften ist, und die international agierende britische Anwaltskanzlei Paul Hastings, die Hedvig nutzt, um die mehr als 100.000 Klienten-Dokumente zu indexieren.

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Kommentar abschicken

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 43527811 / Branchen/Mittelstand/Enterprise)