Object-Based Storage, OBS, unstrukturierter Daten

Extreme Skalierbarkeit durch Objekteimer

| Autor / Redakteur: Erik Ottem* / Rainer Graefen

Geo-Spreading hat gegenüber einem Dreifachspiegel viele Vorteile.
Geo-Spreading hat gegenüber einem Dreifachspiegel viele Vorteile. (Bild: Western Digital)

Anstelle von Indizes verwenden OBS-Systeme Metadaten, um Objekte in Buckets zusammenzufassen. Dadurch wird eine effizientere Skalierung von Kapazitäten und damit praktisch unbegrenzte Datenmengen ermöglicht.

Da OBS-Systeme mit einem flachen Adressraum arbeiten, wird extreme Skalierbarkeit ohne den Overhead erreicht, der üblicherweise mit der Hierarchie von Dateisystemen, Daten-Look-Ups oder dem Zusammensetzen von verteilten Blöcken einhergeht.

Bei klassischen Storage-Architekturen ermöglichen Indizes die Skalierung über einen einzelnen Ordner hinaus. Steigt jedoch die Anzahl der Dateien, erweisen sich die Hierarchie der Dateisysteme und der damit verbundene Overhead als umständlich, mit negativen Folgen für Leistung und Skalierbarkeit.

Anstelle von Indizes verwenden OBS-Systeme Metadaten, um Objekte in Buckets (oder andere logische Verknüpfungen) zusammenzufassen, was eine effizientere Skalierung von Kapazitäten und damit praktisch unbegrenzte Datenmengen ermöglicht.

Zukunftsweisende Datenverfügbarkeit

In herkömmlichen Storage-Architekturen wird oftmals mit RAID-Systemen (Redundant Array of Independent Disks) sichergestellt, dass die Daten beim Lesen verfügbar und korrekt sind. Daten auf mehrere Laufwerke zu verteilen, kann gegen den Ausfall eines oder mehrerer Laufwerke schützen.

Allerdings kann die Leistung, sobald während der Rekonstruktion ein Fehler auftritt, drastisch abfallen, und die Wahrscheinlichkeit, dass andere Laufwerke der Gruppierung ausfallen, steigt ebenfalls an. Die Rekonstruktion von Laufwerken kann Stunden oder sogar Tage andauern und den sofortigen Austausch eines ausgefallenen Laufwerks erfordern. Wenn ein nicht korrigierbarer Lesefehler (Unrecoverable Read Error, URE) während der Rekonstruktion auftritt, gehen Daten dauerhaft verloren, was Risiken für Unternehmensdaten und Produktivität bedeutet.

Mit OBS wird die Datenverfügbarkeit durch erweitertes Erasure Coding erreicht – eine Technik, die Daten mit redundanten Fehlerkorrektur-Codes kombiniert, in Datenblöcke unterteilt und über den gesamten Storage-Pool verteilt. Best Practices beim Erasure Coding setzen voraus, dass ein einzelnes Laufwerk nicht mehr als einen Datenblock eines Objekts aufweisen darf und ein einzelner Knoten niemals mehr Datenblöcke aufweist als das Objekt verlieren darf.

Geo-Spreading gewinnt gegen Dreifach-Spiegel

Dieser Ansatz stellt die Datenverfügbarkeit auch dann sicher, wenn mehrere Komponenten ausfallen, da nur eine Teilmenge der Datenblöcke benötigt wird, um die Daten wiederherzustellen. Es gibt keine Laufwerks-Rekonstruktion oder Leistungseinbußen, und ausgefallene Speicher-Komponenten müssen nicht zum Zeitpunkt eines Lesefehlers ausgetauscht werden, sondern dann, wenn es sinnvoll ist. OBS legt den Schwerpunkt weniger auf Hardware-

Redundanz, sondern mehr auf Datenredundanz.

Ein OBS-System stellt Datenverfügbarkeit durch Geo-Spreading auf drei verschiedene Standorte sicher. Im Gegensatz zum Modell der dreifach gespiegelten Replikation, wird hier jedoch nicht die gesamte Datenmenge an allen Standorten repliziert. Lediglich ein Drittel der Objektdaten wird an jedem Standort gespeichert. Dieser Ansatz reduziert nicht nur den Netzwerkdatenverkehr, sondern er sorgt auch dafür, dass die Aufrechterhaltung der Datenverfügbarkeit nur 67 Prozent der Daten inklusive Overhead in Anspruch nimmt. Bei einer dreifach gespiegelten Replikation hingegen müssen 100 Prozent der Daten an drei Standorten repliziert, gespeichert und verwaltet werden. Somit verspricht das Geo-Spreading-OBS-Modell einen sehr guten Datenzugriff und hohe Resilienz zu deutlich geringeren Ausstattungs- und Managementkosten im Vergleich zur klassischen dreifach gespiegelten Replikation.

Zukunftsweisende Datenlanglebigkeit

Datenlanglebigkeit zielt auf einen langfristigen Datenschutz ab, damit ein Medienfehler wie Korrosion, bei dem ein Teil der Laufwerksoberfläche unlesbar wird und Daten verfälscht werden, den Abruf in ursprünglicher, unveränderter Form nicht unmöglich macht. Der Schutz von Datenblöcken, die inaktiv auf Festplatten liegen, ist hierbei entscheidend. Einfach einen Schutz gegen den Komplettausfall von Laufwerken (wie etwa durch RAID) aufzubauen, schützt nicht gegen den schleichenden Fehleraufbau unter den Bits auf einem magnetischen Medium.

In Kombination mit einer geeigneten Daten-Scrubbing-Technologie schützt OBS vor Bit-Fehlern. Wenn also ein bestimmter Datenblock beschädigt werden sollte, kann aus den redundanten Informationen, die in den verbleibenden Datenblöcken, aus denen das Objekt besteht, gespeichert sind, ersatzweise ein neuer Datenblock erstellt werden.

Eine Rekonstruktion oder ein Ersatz des kompletten Laufwerks ist somit nicht erforderlich, sondern lediglich der betroffenen Daten. Die Kombination aus Erasure Coding und Daten Scrubbing sorgt für extreme Datenlanglebigkeit. Manche Systeme erreichen eine Datenlanglebigkeit von bis zu 19 Neunen, oder einfacher gesagt von je 10 Trillionen Objekten wäre nur eines unlesbar. Aus diesem Grund wird OBS in hoch kapazitären Rechenzentren und Cloud Computing-Umgebungen eingesetzt, um höchste Anforderungen in Bezug auf Datenlanglebigkeit zu erfüllen.

Vereinfachtes Datenmanagement

Im Gegensatz zum hierarchischen Datei-Storage, das in NAS-Umgebungen verwendet wird, hat OBS eine flache Architektur, die als Namespace bekannt ist. Sie sammelt die Objekte ein, die im Objektspeicher gehalten werden sollen, darunter fallen selbst Objekte, die sich in ganz verschiedenen Storage-Hardwaresystemen und an getrennten Standorten befinden. Dieser Namespace bietet einen effektiven und kosteneffizienten Weg, um mehrere Speicher-Racks in einer Einheit zu verwalten und somit eine einzige, vereinfachte Management-Lösung für alle Daten zu finden. Obgleich das Geo-Spreading Daten auf mehrere Speichersysteme an verschiedenen Standorten verteilt, wird jeder eigentliche Vorgang, der für den Enduser unsichtbar bleibt, nur einmal vorgenommen. In einem einzigen Namespace ist die Verwaltung eines Systems, das mehrere Standorte umfasst, deutlich einfacher als die Verwaltung mehrerer voneinander getrennter Standorte.

Zusammenfassung

Das exponentielle Datenwachstum führt uns deutlich vor Augen, welche Herausforderungen bei der Speicherung von Daten heutzutage gemeistert werden müssen. Objektbasierte Speicher bieten entscheidende Vorteile für heutige Rechenzentren als Alternative zu klassischen Speicher-Lösungen. Zusammen mit der hohen Speicherdichte und der weiten Verteilung, die durch OBS ermöglicht wird, können Rechenzentren kosteneffizient große Datenmengen zu geringeren Investitions- und Betriebskosten verarbeiten. Dies verdanken sie einem effizienten Datenschutz und einer vereinfachten Management-Struktur im Vergleich zu klassischen Speicherarchitekturen.

* *Erik Ottem ist Director of Product Marketing, Data Center Systems, Western Digital

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45380464 / Daten)