Mobile-Menu

Definition Was ist Object-Storage / Objektspeicherung?

Autor / Redakteur: Walter Schadhauser / Rainer Graefen

Object-Storage oder auf Deutsch Objektspeicherung trifft selbst bei Enterprise-Anwendern immer noch auf Skepsis. Doch Objekte lösen einige zentrale Probleme der IT – sie können Dokumente wie auch Dateien kapseln und mit dem Mehrwert von Metadaten aufwerten, was ihre Wiederverwertbarkeit vereinfacht. Nicht zuletzt übertrifft die Datenverfügbarkeit die Werte von RAID 6 um ein Mehrfaches.

Anbieter zum Thema

Wie erklärt man die Objektspeicherung? Eine Garderobenmarke hilft weiter.
Wie erklärt man die Objektspeicherung? Eine Garderobenmarke hilft weiter.
(Bild: 142013661 Fotolia.com)

Objektspeicher organisieren Daten weder in hierarchisch angeordneten Verzeichnisbäumen mit Ordnern und Unterordnern noch in Form von Festplattenblöcken. Stattdessen fassen sie Daten inklusive ihrer externen Dateiattribute, inhaltsbezogenen Metadaten und applikationsspezifischen Parametern zu einem dezidierten Objekt zusammen. Dieses Objekt ist anschließend mit einer einzigartigen Kennzeichnung, der Objekt-ID, erreichbar – und das unabhängig von einem potenziell globalen Speicherort.

Die jedem einzelnen Objekt eigene eindeutige Identifikationsnummer (ID) wird automatisch von den Anwendungen erzeugt und das Gesamtpaket über die hierfür vorgesehenen Schnittstellen an den Objektspeicher übergeben.

Die ID dient einerseits als Eingabeparameter für einen Hashing-Algorithmus, der den Speicherort für das Objekt berechnet; andererseits lassen sich über die Kennung angefragte Dateiinhalte schnell lokalisieren, ganz gleich, an welcher Stelle sie letztlich abgelegt wurden.

Das dahinter steckende Verfahren lässt sich anhand von Garderobenmarken gut erklären. Sobald der Mantel auf dem Tresen liegt, erhält der Besitzer eine nummerierte Marke, die Objekt-ID. Nach welcher Logik der Mantel dann auf einen der zahlreichen Garderobenständern abgelegt oder eventuell auch umgehängt wird, interessiert den Mantelbesitzer nicht. Die Garderobenmarke und möglicherweise weitere verzeichnete Merkmale sorgen bei der Abholung dafür, dass der Aufbewahrungsort des „Mantelobjekts“ leicht zu identifizieren ist. Anschließend wird der Mantel gegen die Garderobenmarke getauscht.

Eine flache Hierarchie für Milliarden von Datenobjekte

Abgelegt werden die Objekte in einem skalierbaren Speichergrid, der aus einer leicht skalierbaren Zahl von Speicherknoten besteht. So erscheint der Object Storage stets als ein einziges logisches System, unabhängig von der Anzahl der tatsächlich vorhandenen Nodes und ob diese nur in einem Rechenzentrum oder an verschiedenen geographisch voneinander entfernten Standorten untergebracht sind.

Da Anwendungen direkt mit den Objekten kommunizieren, muss der Applikationen im einfachsten Fall nur die Identifikationsnummer (ID) des Objektes mitgeteilt werden. Die Kommunikation findet danach über die HTTP-ReST-Schnittstellen (Representational State Transfer) statt.

Als Industriestandard hat sich derzeit die Amazon-S3-API bewährt, da sie anders als die simple ReST-Schnittstelle viele Funktionen zur Bearbeitung von Objekten kennt. Die grundlegenden Befehle der ReST-Schnittstelle mittels einfacher HTTP-Anfragen lauten: Put für das Erstellen, Get für das Lesen, List für die Auflistung der Objektparameter und Delete, um das Objekt zu löschen.

Revisionssicherheit inklusive

Object-Storage eignet sich nach dem aktuellen Stand der Dinge für die Speicherung großer und umfangreicher Datenmengen, die nur selten oder gar nicht mehr verändert werden. Doch inzwischen wachsen die Bestrebungen, die Objekt- und die Dateispeicherung zusammenzulegen.

Im Falle von Modifikationen stehen zwei Optionen zur Auswahl. Entweder wird das gleiche Objekt unter einer vollständig neuen ID gespeichert und das Original beibehalten oder aber die ursprüngliche Kennung mit einer Versionsnummer versehen.

Dadurch lassen sich Änderungen rückverfolgen und sind jederzeit nachvollziehbar. Dies ist von Vorteil, wenn die Informationen unter Einhaltung von Compliance-Vorgaben fälschungssicher aufbewahrt werden müssen.

Hierfür sind erneut die ID-generierenden Anwendungen zuständig, die so programmiert sind, dass sich Datensätze nicht parallel ändern lassen. Vielmehr wird schreibend stets atomar auf das ganze Objekt zugegriffen. Das schließt

aus, dass es zu Korruptionen kommt.

Datenschutz via Erasure Codes anstelle RAID

Geht es um die Absicherung von Daten, setzen die Anbieter von Object Storage in der Regel auf eine mehrfache Objektreplikation, die mittels mehrerer Erasure-Coding-Methoden laufend überwacht werden. Der klassische RAID-Datenschutz erweist sich für die Objektspeicherung als unwirtschaftlich und in einem global verteilten Speichersystem ungeeignet, die Datenintegrität bei Komponentenfehlern und -ausfällen zu bewahren.

Erasure Coding behebt diese Mankos und gilt daher für Objektspeicher als der bessere Schutzmechanismus. Jede Datei wird zunächst in Einzelteile zerlegt, die neben den ursprünglichen Daten auch redundante Informationen enthält, kodiert und im Anschluss auf mehrere Festplatten und Speicherknoten verteilt.

Für die Wiederherstellung beschädigter oder gänzlich verloren gegangener Originaldateien ist lediglich eine bestimmte Anzahl der an den verschiedenen Speicherorten abgelegten Bruchstücke nötig. Abhängig von der Konfiguration des Gesamtsystems lässt sich dadurch der gleichzeitige Ausfall einer weitaus größeren Zahl an Festplatten, Nodes oder auch ganzer Rechenzentren auffangen.

Hinzu kommt, dass sich durch den Einsatz von Erasure-Coding-Verfahren ein unter dem Faktor 2 liegendes und damit besseres Verhältnis im Hinblick auf die tatsächlich benötigte Speicherkapazität und das nutzbare Datenvolumen erzielen lässt. Im Vergleich zur Dreifachreplikation lassen sich in Multi-Petabyte-Umgebungen dadurch hunderte bis tausende an Festplatten einsparen.

Fazit

Keine Objektspeicherlösung gleicht der anderen, denn die Hersteller setzen bei ihren Architekturen auf unterschiedliche Schwerpunkte. So steht für den einen das Thema Skalierbarkeit an erster Stelle, für den anderen der Datenschutz und für den nächsten die Integration von NoSQL-Datenbanken oder Zusatzfunktionen. Von Analystenhäusern wie Gartner oder IDC aufgelegte Berichte liefern erste Anhaltspunkte, welche Leistungsmerkmale die einzelnen Produkte auszeichnen und für welche Anwendungsfälle sie am besten passen.

(ID:44732036)