Die Cloud als globales Archiv

Wie man seine Daten wieder loswerden könnte

| Autor / Redakteur: Walter Schadhauser / Tina Billo

Das Schicksal aller Daten: beständig werden sie verschoben.
Das Schicksal aller Daten: beständig werden sie verschoben. (Bild: SAP)

Die Miniaturisierung von Speichern schreitet mit schnellen Schritten voran. Doch der wachsende Platzbedarf für die Lagerung aller Daten zeigt, dass die Fortschritte der Speichertechnik mit dem Datenwachstum nicht Schritt halten können. Doch alle machen weiter wie immer.

Eigentlich könnte man Hoffnung haben: Die Speicherkapazitäten steigen auf breiter Front: So kann man mit 8-Terabyte-Festplatten derzeit fünf Petabyte Daten in einem Archiv-Rack lagern. Eine Tape Cartridge könnte in absehbarer Zukunft 220 Terabyte speichern. Und schon in wenigen Jahren werden Flash-Speicher respektive SSDs ebenfalls 100, wenn nicht sogar 200 Terabyte an Informationen aufnehmen.

Doch die Informationsproduzenten lassen gleichfalls nicht locker. Sie steigen um auf die 4k-Videoproduktion und warten schon ungeduldig auf die 8k-Variante. Augmented Reality steht für diejenigen vor der Tür, die nicht schon vorher in die Virtual Reality abgedriftet sind. Und was die Maschinen im Internet der Dinge so alles zu erzählen und anzuweisen haben, das weiß kaum einer.

Indizien und Beweise sichern

Der steigende Konsum von Videos wird schon heute zum Problem. Sie werden das neue Kommunikationsmittel und Compliance-Tool. Polizisten tragen die Kamera am Revers, Mountainbiker auf dem Helm.

Gemäß einer Cisco-Studie sollen Videodateien in drei Jahren 79 Prozent des Internetverkehrs ausmachen. Dies dürfte sich auf die nationalen Datennetze so auswirken, wie es auch bei Auto und Autobahn der Fall ist: In nicht vermeidbaren Staus.

Videodateien sind selbst in komprimierter Form groß und lassen sich schlecht deduplizieren. Gänzlich neue Herausforderungen birgt die Speicherung und Verarbeitung von Mess- und Sensordaten aus der Sphäre des Internet of Things.

Das große Vergleichen

Das Internet der Dinge mit seinen Milliarden Sensoren könnte viele lokale Daten öffentlich und damit wertvoll machen. Hierzu könnten beispielsweise die Turbinendaten eines Flugzeugs oder der Bordstein mit dem „Parkplatz belegt“-Sensor zählen.

Alles was in der Welt gemessen wird, lässt sich analysieren und vergleichen und kann dann für globale Steuerungszwecke genutzt werden. Da es sich um kleine, beständig tröpfelnde Sensordaten handelt, wird wohl ein neues Datenformat benötigt. Diese Daten als Block, File oder Objekt zu speichern, wäre reine Platzverschwendung.

Ebenfalls sollte die sichere Aufbewahrung solcher Kleinstdaten nicht vernachlässigt werden, da die Kenntnis über die Bewegungsdaten einer CNC-Maschine auch manches Betriebsgeheimnis auf einfache Art lüften könnte.

Der Wert der Daten

Im Jahr 2003 brachten die Hersteller von Speichersystemen das Thema Information Lifecycle Management (ILM) auf. Der Wert der Daten sollte darüber entscheiden, auf welchem teuren oder billigen Speichermedium sie liegen durften. Das war ein anspruchsvolles Anliegen, dass man den Anwendern damals als die ultimative Lösung zur Lagerung aller Unternehmensdaten vorstellig machte.

Eigentlich ist die Nutzung von Speicherkapazität schon immer eine Frage der Kosten gewesen, die dann in einer speichertechnische Hierarchie (HSM), modern Tier genannt, organisiert wurde. Früher handelte es sich dabei um schnelle und teure Festplatten, langsame und preiswerte HDDs und das Bandlaufwerk. Heutzutage kommen schnelle und langsame Halbleiterspeicher hinzu.

Praktische Probleme

Der hierarchische Ansatz hat sich im Laufe der Speichergeschichte nicht geändert. Denn alle Daten in einer Speicherstufe abzulegen, wäre entweder zu teuer oder viel zu langsam. Also gilt: Je kürzer die Latenzzeit eines Speichermediums, desto wirkungsvoller leistet es seinen Dienst, je näher es am Prozessor liegt. Es darf aber gleichzeitig nicht überdimensioniert sein.

Die Verschiebung der Daten bei HSM erfolgte allerdings auf Grund von Metadaten wie Alter, Größe oder Platzbedarf für das höherwertig eingeschätzte Medium. Sind die Daten in einem Hybridsystem mit mehreren Tiers abgelegt, so kommt eine Temperaturskala mit Hot, Warm und Cold zum Einsatz. Verschoben werden dann jedoch meistens nicht mehr ganze Dateien. Sondern nur noch die Blöcke, die mehr oder weniger häufig von einem statistischen Verwaltungssystem angefordert werden. Beide Verfahren zeugen davon, dass man vom Wert der Daten damals wie auch heute keine Ahnung hatte.

Und auch das Problem wie man die Daten in einer heterogenen Produktwelt wieder von unten nach oben bewegt, ist nicht ganz so simpel. Schließlich wurden die „alten“ Daten mit inzwischen „upgedateten“ (veralteten) Applikationen und Datenbankstrukturen erzeugt.

Active Cloud-Archive?

Die Frage nach dem Wert der Daten sollte man trotz aller technischen Opportunitäten versuchen, grundlegend zu beantworten und damit vielleicht einer Lösung näherkommen. Der Versuch, die Cloud als angeblich billige Rumpelkammer zu benutzen, wird scheitern.

Aus den Augen, aus dem Sinn, funktioniert nur, wenn man nicht jeden Monat für eine steigende Datenmenge wachsende Gebühren für die Lagerung und die „Müllabfuhr“ bezahlen muss.

Worin liegt der Wert der Daten? Im Inhalt, auf den nicht immer nur die eigene Firma Anspruch erhebt. Gesetzliche Aufbewahrungsfristen, Dokumentationspflichten für die Produkthaftung, der Nachweis von Compliance und vielleicht auch historische Big-Data-Analysen. Selbst wenn ein Unternehmen den Datenwert mit Null beziffern könnte, darf es auf Grund externer Vorschriften die Daten nicht beseitigen. Also weitermachen wie bisher?

Sortieraufgabe vor der Cloud

Der Wert der Daten hat also wenig mit dem Inhalt zu tun, sondern mit generellen Vorschriften. Das heißt aber auch, dass Aufbewahrungsfristen einmal ein Ende haben. Wer die Cloud als Endlager für seine Unternehmensdaten einsetzen will, der sollte dieses Enddatum an seine Daten heften, bevor sie in die Cloud wandern.

Diese Analyse-Aufgabe steht unter keinem Termindruck und kann noch mit einer weiteren kombiniert werden: Duplikate finden. Denn wenn Daten keinen Wert haben, dann sind es Kopien. Diese Erkenntnis hat das Backup revolutioniert und es hat sich gezeigt, dass in einem geschlossenen System große Kostenblöcke eliminiert werden können.

Diese Prinzipien gilt es auf alle Unternehmensdaten auszuweiten. Eine Kopie kann dann gelöscht werden, wenn ein Pointer auf die Originaldaten existiert. Bei HSM hat man dazu einen Stub im Dateisystem abgelegt. Der Einsatz einer Objektspeicherung könnte den Stub durch einen global zugreifbaren Pointer ersetzen.

Und der Rest der Daten wird dann gelöscht, wenn alle diesbezüglichen Vorschriften abgelaufen sind. Das geht aber nur dann, wenn diese als Metadaten jedem Dokument zugeordnet wurden.

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 43640411 / Daten)