Festplattenhersteller HGST liefert Object Storage für Gesundheitswesen, Unterhaltungsindustrie und Cloud Provider

Ein sicherer Aufbewahrungsort für Trillionen Objekte

| Autor / Redakteur: Walter Schadhauser / Rainer Graefen

Um größtmöglichen Nutzen aus den wachsenden Datenbeständen zu ziehen, sind skalierbare Speichersysteme erforderlich, die sich zudem einfach handhaben lassen und finanziell rechnen.
Um größtmöglichen Nutzen aus den wachsenden Datenbeständen zu ziehen, sind skalierbare Speichersysteme erforderlich, die sich zudem einfach handhaben lassen und finanziell rechnen. (HGST)

Objektbasierte Speicher stehen aufgrund ihrer enormen Skalierbarkeit und Mandantenfähigkeit hoch im Kurs. Ihr Einsatz ermöglicht selbst enorme Datenmengen zu speichern und bietet sich vor allem für die Langzeitspeicherung von Daten an, die nicht beständig geändert werden.

Objektspeicher gelten als die Archive der Zukunft. Noch reagiert der Markt nur zögerlich auf das neue Speicherformat, da die Dokumente anders als bei einem Dateisystem über die REST-Schnittstelle zum Beispiel an einen Cloud-Provider gereicht werden. Der Provider gibt dem Client eine URL-Adresse zurück, unter der das Objekt wiederzufinden ist. Da Hein Objekt viele Dokumente beinhalten kann, sind im HTTP-Header des Objektes Informationen hinterlegt, wie man an die einzelnen Dokumente gelangen kann.

Amazon bietet mit S3 zum Beispiel eine REST-Schnittstelle an, über die Objekte auf die Speichersysteme des Versandgroßhändlers gelangen. Der dafür implementierte Mechanismus ist inzwischen zu einer Art Industriestandard geworden. Ein nativer Zugriff des Clients auf Bestandteile des Objekts ist nicht vorgesehen. Vielmehr braucht es eine Anwendung, die die URLs und ihre Inhalte verwaltet und bei Bedarf über die REST- respektive S3-Schnittstelle anfordert.

Alternativ kann man seine Dateien wie gewohnt über SMB/CIFS und NFS an ein Gateway schicken, das die Verwaltung der Provider-URLs übernimmt. Allerdings muss man in diesem Fall bei der Performance Abstriche machen.

Objekt versus File

In den letzten Jahren sind Objektspeicher in der Handhabung einfacher geworden und gewinnen zunehmend an Bedeutung. Da Objekte mit zumeist statischen Inhalten für die Langzeitspeicherung vorgesehen sind, werden spezielle Anforderungen an die Unversehrtheit und Verfügbarkeit der Daten gestellt. Das ist mit herkömmlichen RAID-Systemen nicht zu gewährleisten.

Traditionelle RAID-Systemen arbeiten heute mit einer Fehlerrate von 10 hoch minus 14, bessere Festplatten erreichen auch 10 hoch minus 15. Angesichts der Unmengen an Objekten, die Unternehmen in naher Zukunft speichern wollen, würde diese relativ schlechte Fehlerrate zur Folge haben, dass selbst mit Fehlerkorrekturmaßnahmen mehrere hundert Fehler in den Dokumenten auftreten würden.

Da Anwendungen langsam Daten mit 4K-Sektoren schreiben können, hat sich das Problem ein wenig entschärft. 4K-Sektoren erlauben neben Korrekturen in den Datenblöcken auch Fehlerkorrekturen, die während einer Übertragung zwischen Server und Festplatte auftreten können.

Da Object Storage erst ab höheren Kapazitäten wirtschaftlich wird, ist es für ein mittelständische Unternehmen unökonomisch, einen objektbasierten Speicher als ein Stand-alone-System zu testen. Das ist der Grund, warum in diesem Feld agierende Start-up-Unternehmen noch immer Probleme haben, genügend Produkte zu verkaufen.

Die Objekt-Technik ist zwar auf Dauer unverzichtbar, beispielsweise als Teil von Online-Archiven für das Gesundheitswesen, die Distribution von Inhalten und Workflow-Lösungen und zunehmend als Teil konvergenter Lösungsangebote traditioneller Storage-Anbietern. Aber noch sind auch Dateisysteme ausreichend performant und zudem kann jeder damit umgehen.

Was kann Objektspeicherung besser?

Bei soviel Vorschusslorbeeren stellt sich die Frage: "Was kann Objektspeicherung besser?" Zum Beispiel machen die Systeme nicht schlapp, wenn sie eine Trillion Objekte verwalten müssen. Ein Dateisystem ist hingegen nicht in der Lage, so eine große Menge an Daten in vernünftigen Zeitspannen zu mounten. Zudem verfügt ein mit Objekten arbeitendes Archivsystem über deutlich mehr Möglichkeiten, die Datenintegrität sicherzustellen.

Beispiel Amplidata, inzwischen im Besitz von HGST. Der Festplattenhersteller bekommt dank der Kapazitätsführerschaft seiner Helium-Festplatten sehr viel Freiraum durch die Mutter WD eingeräumt. Erst kürzlich erweiterte der Anbieter sein Produktportfolio um ein Archivsystem namens Active Archive SA7000. Dieses speichert 4,7 Petabyte Daten in einem 19-Zoll-Rack und kann 90 Prozent aller Daten innerhalb von 100 Millisekunden an die Anwendung zurückliefern. Gegenwärtig wird das System mit 8 TByte Helioseal-Festplatten ausgeliefert, ist aber auch für den Einsatz der 10 TByte Disk vorbereitet.

HGST wittert eine Marktchance mit Komplettsystemen für den Bereich aktives Archiv und hat mit dem SA7000 ein „Gesamtkunstwerk“ geschaffen, das vollständig der Kontrolle im eigenen Unternehmen unterliegt. Festplatten anderer Hersteller werden nicht unterstützt. Vielmehr sollen Selbsttest-Programme, Call-Home-Wartungssoftware, der Burn-in von Festplatten und des kompletten Racks wie auch die Vorformatierung für eine schlüsselfertige Benutzung beim Anwender sorgen. „Das Zusammenspiel aller Komponenten“, erachtet Manfred Berger, Senior Manager für Cloud & Mobility bei HGST, „als extrem wichtig.

HGST hat wie andere Hersteller auch mit Shingled Magnetic Recording (SMR) die Plattenkapazität um 25 Prozent aufgepeppt. Die Folge: die Spuren sind nun noch enger zusammen gerückt und so muss extreme Sorge getragen werden, dass die auch schon früher gefürchteten Eigenvibrationen eines Festplatten-Racks nicht auf die einzelnen Speichermedien zurückwirken.

Die Dauerhaltbarkeit

Nachdem sich Anwender nur kurze Zeit an das Wort Terabyte gewöhnen konnten, gilt es nun, die zwangsläufige Fortsetzung des Datenwachstums in Petabyte zu verinnerlichen.

Interessierte sich früher niemand für die Fehlerwahrscheinlichkeit einer SATA-Festplatte, die mit 10 hoch minus 14 sehr klein schien, so ist heute ziemlich wahrscheinlich, dass selbst moderne SAS-Festplatten mit einer Fehlerrate von 10 hoch minus 15 bei Speicherkapazitäten von mehr als einem Petabyte sehr sicher mehrere Fehler erzeugen.

Dagegen hilft auch kein RAID mehr. RAID-Konfigurationen mit dem Level 5 oder 6 erweisen sich in diesen Dimensionen nicht mehr als technisch brauchbare Lösungen. Zudem ist der Ausfall einer Festplatte nicht mehr handhabbar. Ein Rebuild dieser PByte-Speicherkapazität würde nicht Tage, sondern Wochen in Anspruch nehmen. Ein kostenträchtiger Aspekt für jedes Unternehmen, das einen Systemschaden beheben müsste oder auch nur den Provider wechseln will.

Um den Datenverlust fast unmöglich zu machen, ist der Amplidata-Kern in der HGST-Maschine deshalb mit allen technischen Raffinessen ausgestattet. Hersteller HGST gibt für das SA7000 eine Daten-Durability von 99,9999999999999 Prozent (fünfzehn 9en) an. Der dafür erforderliche sogenannte Erasure Code wurde zwar schon vor 40 Jahren erfunden. Doch da seine Ausführung im Hintergrund erhebliche Compute-Ressourcen benötigt, ließ er sich bis heute nicht realisieren.

Ausfallsicherheit und schneller Rebuild

Um diese Zuverlässigkeit zu erreichen sind drei Grundfunktionen notwendig:

  • 1. Bitspread
  • 2. Geospread und
  • 3. Bitdynamics

Bitspread verteilt das Objekt auf 18 Festplatten, fünf davon sind für die Daten des Error Correction Code (ECC) reserviert. Anders als bei RAID-6 können nicht nur zwei Festplatten ausfallen, bevor die Daten nicht mehr wiederherstellbar sind. Durch Bitspread wird der Ausfall von fünf Festplatten verkraftbar. Damit sind 72 Prozent der Plattenkapazität nutzbar.

Geospread arbeitet mit ähnlichen Prinzipien. Die Objekte werden automatisch auf die verschiedenen Standorte verteilt. Es kommt der 18/6 Erasure Code zum Einsatz, das heißt von 18 Festplatten sind sechs für Korrekturdaten vorgesehen. Geospread kommt zum Einsatz, wenn mindestens drei Archivsysteme im Einsatz sind, so dass sich eine Verteilung von 6/2-Festplatten ergibt. Würden die Daten an einem Standort durch eine Katastrophe vollständig vernichtet, ließen sich alle Daten aus den restlichen beiden Systemen verlustfrei restaurieren.

Ein Riesenvorteil von Geospread ist, dass an der der Wiederherstellung eines Objektes alle 588 Festplatten des Active Archive beteiligt sind. Das Objekt muss nicht am alten Speicherort regeneriert werden. Vielmehr sorgt die Objektverwaltung dafür, dass der S3-Anwendung oder dem Gateway die richtigen Objektbetandteile ausgeliefert werden. Zum Vergleich: Ein RAID-System würde für den Rebuild einer 8-TByte-Platte etwa 3 Wochen Zeit brauchen.

Bitdynamics übernimmt in diesem Umfeld die Rolle des Overlookers. Die Funktion agiert von allen vorhandenen Systemen aus und überprüft beständig, ob alle Objekte über 18 Festplatten verteilt sind.

Hardware

Laut Berger hat HGST bei seinem Active Archive die niedrigste Stromaufnahme: 6,9 Kilowatt pro Rack sollen es sein. Die Netto-Speicherkapazität beträgt 4,7 PByte. Die Storage-Nodes, die die Metadaten verwalten, nutzen einen eigenen Speicherbereich. Ein JBOD-Einschub nimmt 98 8-TByte-Disks auf, Stromverteilung und Switches sind in das Rack integriert. Mit insgesamt 6 x 10 GBit/s-Verbindungen erfolgt die Anbindung an die Anwendungsserver. Für die interne Skalierung steht ein Backbone mit einer 40 GBit/s-Verbindung zur Verfügung.

Kosten

Ist Cloud-Storage billig? Es klingt preiswert, wenn Cloud-Provider mit Preisen von wenigen Cent pro Gigabyte werben. Der Kostenblock fällt allerdings jeden Monat an. Anwender sollten zudem darauf achten, dass die Provider für die Verfügbarkeit der Daten unterschiedliche Bereitstellungszeiten und Kosten anbieten. Glacier von Amazon liefert die Daten in der untersten Preisklasse erst nach vier Stunden an. Bei dreifach höheren Kosten sinkt die Zugriffszeit bei Google und Amazon jedoch ebenfalls in den Sekundenbereich.

HGST verspricht für sein Active Archive Zugriffszeiten von 100 Millisekunden für 90 Prozent des Datenbestands. Dafür muss der Kunde einmalig 18 Cent pro Gigabyte bezahlen. Rechnet man noch die beim Cloud-Storage-Providing ebenfalls beständig anfallenden Datentransferkosten dazu, wird deutlich, warum der Festplattenhersteller sein Produkt selbst für die Private Cloud für ein preiswertes Angebot hält.

Zu berücksichtigen ist auch, dass sowohl die Protagonisten der Speicherbranche als auch die Analysten von IDC davon ausgehen, dass schon bald nicht mehr genug Speichermedien für die wachsende Datenmenge bereitstehen.

Professionelle Anwender, die Big-Data-Analysen auf historischen Daten fahren wollen, müssen weitere Systemparameter in ihre Überlegungen einbeziehen. Ein S3-Gateway kann derzeit nur mit etwa 600 MByte pro Sekunde auf das SA7000 zugreifen. Eine auf Amazons S3-Schnittstelle zugeschnittene Anwendung könnte denselben Datenbestand im direkten Zugriff mit etwa sechsmal höheren Geschwindigkeiten abrufen.

Was für mittelständische Unternehmen gegen die HGST-Lösung sprechen könnte, sind die Gesamtkosten. Das SA7000 besitzt keine Granularität. Bei fast 5.000.000 GByte, von denen jedes einzelne mit 18 Cent zu Buche schlägt, kommt doch eine erkleckliche Investitionssumme zusammen.

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 43395895 / Archivierung)