Systemwechsel bei der Datensicherung

Unikate sind billiger

28.02.2007 | Autor / Redakteur: Elmar Török / Rainer Graefen

Virtualisierung war gestern, der neue Liebling der Storage-Branche heißt Deduplication. Mit der Technologie, so werben die Hersteller, lassen sich sagenhafte Daten- und Kosteneinsparungen erzielen. Die Kompressionsraten sind so enorm, dass sich selbst verschärfte Anforderungen der Geschäftsführung nach mehr Compliance, längeren Backup-Intervallen und höherer Verfügbarkeit durch Spiegelung des Backups ohne Änderungen der Backup-Infrastruktur abwickeln lassen. Dieser Artikel erklärt die Grundlagen.

In der Storage Branche wird es nie langweilig. Früher waren Festplatten viel zu klein und zu teuer um für schnödes Backup missbraucht zu werden, Tape galt als selbstverständliche Wahl, wenn es um die Datensicherung ging. Dann fielen die Harddisk-Preise in den Keller, Backup-to-Disk wurde salonfähig. Die Hersteller schwärmten von der phantastischen Restore-Performance und dem einfacheren Handling im Vergleich zum ach so altmodischen Bandlaufwerk.

Nun ist der Preis pro Gigabyte bei Festplatten zwar so niedrig wie nie zuvor, doch das hilft den Firmen wenig: die Datenmengen sind, nicht zuletzt aufgrund der kostengünstigen Speichermedien, kaum noch zu handhaben. Terabyte gelten heute als Standardrecheneinheit, selbst bei kleinen und kleinsten Firmen. Wieder ist Platz sparen en vogue, Techniken, mit denen das Backup zusammengeschrumpft werden kann, haben Hochkonjunktur.

Die Theorie gibt es schon ein wenig länger

Ganz vorn mit dabei ist Deduplication. Während die Technologie Anfang 2006 höchstens Insidern und den Herstellern selbst bekannt war, rauschte zum Jahresende ein wahrer Artikelsturm durch die Fachmedien. Verständlich, bei den erzielbaren Einsparungen im Speicherplatz glaubte so mancher an einen Schreibfehler. 300:1 ist bislang das Höchste, was Datenblätter und Marketingabteilung hergeben. Aber auch wenn man mit einer etwas kühleren Analyse an das Thema heran geht, kommen immer noch enorme Einsparfaktoren heraus. 20:1 bis 30:1 gelten als machbar, je nach Struktur der Daten und Art der Anwendung. Kein Wunder, dass Brad O’Neill, Senior Analyst bei der Taneja Group, schon 2005 in einer Studie den Siegeszug der Deduplication voraus sagte. „In Zukunft wird Deduplication Technologie Bestandteil jedes Systemdesigns sein, die Vorteile sind einfach zu groß um es nicht einzubauen.“

Baukastenprinzip

Deduplication hat Ähnlichkeit mit Kompression, ist aber nicht das gleiche. Im Prinzip geht es darum, mehrfach vorkommende Teile aus einer Datenübertragung zu entfernen und dafür lediglich einen Vermerk in einem Index hinzuzufügen. Wird die Datei wieder gebraucht nimmt man sowohl ihre einzigartigen Bestandteile als auch die Elemente, die sie mit anderen Dateien gemein hat und nur einmal abgelegt wurden. Der Index sagt, welche Teile das sind und wie sie mit den einzigartigen Teilen zusammengefügt werden müssen, um wieder die Ursprungsdatei zu ergeben. Man kann sich das wie einen Baukasten vorstellen, in dem es runde, eckige und dreieckige Klötze gibt. Aus den Klötzen entstehen Lokomotiven, Brücken und Häuser, die Bestandteile sind gleich, nur anders angeordnet.

Jeden Klotz gibt es nur einmal

Will man die Bauwerke sichern, genügt es je einen der verwendeten Bauklötze abzulegen, zusammen mit einem Plan, der angibt wie viele Bauklötze benötigt werden und wie man sie anordnet. Der Vergleich hinkt ein wenig, denn die Bauklötze müssten in beliebiger Menge zur Verfügung stehen. Bei Bits und Bytes auf der Festplatte funktioniert das aber tadellos. Es gibt zwei Methoden, um den „Bauplan“ für die Bauklötze zu organisieren. Beim Reverse-Referencing wird das erste gemeinsame Element gespeichert, alle später auftauchenden, identischen Elemente erhalten nur noch einen Verweis auf das Erste. Forward-Referencing legt immer den zuletzt aufgetretenen, gemeinsamen Datenblock ab und referenziert die vorher aufgetretenen Elemente per Pointer. Im Moment ist noch unklar, ob die Methoden einen Einfluss auf den Durchsatz des Systems haben, man sollte vor der Entscheidung auf alle Fälle Tests mit beiden Verfahren durchführen.

Single Instancing arbeitet nur auf Dateiebene

In der einfachsten Variante verhindert Deduplication, dass eine Datei, die sich nicht verändert hat, mehr als einmal gesichert wird. Diese Methode sollte zur Unterscheidung besser als Single Instancing bezeichnet werden. Ein korrekt eingestelltes inkrementelles Backup ist Deduplication in seiner simpelsten Form. Allerdings würde jedes Bit, das an einer 4 Gigabyte Datei geändert wird, dazu führen, dass die Datei doch zwei Mal auf Band oder auf einen Festplattenspeicher wandert. Richtiges Deduplication beginnt auf einem weit feineren Detail-Level. Je nach Hersteller werden die Dateien in Blöcke eingeteilt oder gleich auf Byteebene verglichen. Der Prozess der Identifikation heißt Fingerprinting, dabei werden die eingehenden Daten analysiert und nach Gemeinsamkeiten untersucht.

Schon im Datenstrom suchen

Das Fingerprinting versucht auch festzustellen, wie man den eingehenden Datenstrom am besten in Stücke zerlegt, damit möglichst viele identische Bauteile heraus kommen, das so genannte „chunking“ (von chunk = Stück oder Block). Die meisten Fingerprint-Konzepte funktionieren transparent, sie wissen nicht welche Dateien hinter dem Backup-Datenstrom stehen. Andere Systeme arbeiten inhaltsabhängig, sie analysieren die Dateien, die im Backup-Image enthalten sind. Damit haben sie Zugriff auf Dateinamen, Pfadangaben und andere Metadaten, das chunking wird dadurch zielgenauer. Optimales chunking hat Vorteile, aber auch ein Manko. Je genauer man die Änderung an einer Datei identifizieren kann, desto weniger muss redundant gesichert werden, nämlich nur der kleine Teil, der sich tatsächlich im Vergleich zu der vorher gespeicherten Datei verändert hat. Allerdings vergrößert das die Index-Datenbank, sozusagen den „Plan“, wie und aus welchen Bestandteilen die Datei bei Anfrage wieder zusammengesetzt wird. Darauf hat allerdings noch ein Faktor großen Einfluss: die Art der Identifikation von gemeinsamen Blöcken.

Hash-Algorithmen nehmen Fingerabdruck

Am exaktesten läuft das über einen Bit-für-Bit Vergleich, doch die I/O-Anforderungen sind in dem Fall enorm hoch. Darum kommen häufiger Hash-Mechanismen zum Einsatz, die auch in der Cryptographie bekannt sind. SHA-1 ist eine Variante, sie erzeugt einen 160 Bit langen Wert pro Block, der als statistisch einmalig angesehen wird. Zwei Blöcke mit dem gleichen SHA-1 Wert sollten den identischen Inhalt haben. Ebenfalls mit einer Hash-Funktion arbeitet MD5, dabei wird ein 128-Bit langer Wert erzeugt. Bei einigen Herstellern kommen selbst entwickelte Techniken oder eine Kombination mit MD5 und SHA-1 zum Einsatz. So verwenden Diligent Technologies und Sepaton eine selbst entwickelte Methode für das Fingerprinting und nutzen eine Bit-für-Bit Analyse, um optimale Blöcke zu finden. Falconstor verwendet SHA-1 für die Analyse, kann aber auch einen zusätzliche MD-5 Check anschließen.

Kleiner Exkurs in die Mathematik…

Bei den enormen Datenmengen, die in einem Datenstrom anfallen, wird selbst bei 160 und 128 Bit langen ID-Strings die Frage nach möglichen Wiederholungen laut. Im Crypto-Bereich gilt es als erwiesen, dass ein Hacker zwei identische MD5 Signaturen mit unterschiedlichen Ausgangsdaten erzeugen kann. Das ist der Grund, warum für Cryptographie fast nur noch SHA-1 zum Einsatz kommt. Was im Crypto-Bereich absichtlich passiert, kann bei einer extrem hohen Zahl von Hash-Strings auch zufällig vorkommen. Allerdings lohnt es sich einen Blick auf die Wahrscheinlichkeiten zu werfen. Ein identischer Hash-String trotz Unterschieden in den Ausgangsdaten bedeutet nichts anderes als einen unbrauchbaren, korrumpierten Datensatz.

… und Wahrscheinlichkeitsrechnung

Das kann auch aus anderen Gründen passieren, zum Beispiel, wenn die Festplatte Schreib- oder Lesefehler verursacht. Die Chancen für so einen Fehler liegen bei 1 zu 10 hoch 14. Noch unwahrscheinlicher ist der umgekehrte Fall, dass die automatische Fehlerkorrektur einschreitet und etwas korrigiert was gar keiner Korrektur bedarf. Hier ist der Faktor bei 1 zu 10 hoch 21. Diese Wahrscheinlichkeiten sind branchenweit akzeptiert, stellen also auch in der Praxis kein Problem dar. Bei MD5 und SHA-1 liegen die Faktoren bei 1 zu 2 hoch 128 und 1 zu 2 hoch 160, das wären umgerechnet 10 hoch 38 und 10 hoch 48, also deutlich besser als der beschriebenen Fall mit Schreib- oder Lesefehlern auf der Festplatte. Nicht eindeutige Hash-Strings sind also kein Thema. Wer dagegen schon eine Weile mit Band als Backup-Medium gearbeitet hat, kennt garantiert Fälle, in denen Daten auf Tapes nicht mehr lesbar waren. Verglichen damit sind Lesefehler auf Festplattenarrays so gut wie unbekannt.

Neue Basis für das WAN-Backup

Bis jetzt war von Deduplication vor allem im Zusammenhang mit Backup die Rede. Der Großteil der Produkte auf dem Markt spiegelt diese Ausrichtung wieder. Dabei wird Dedup-Technik in Festplattenspeichersysteme integriert, die sich dem Anwender oder der Backup-Software als virtuelle Festplatte oder als Virtual Tape Library präsentieren. Das funktioniert auch dann ausgezeichnet wenn eine WAN-Verbindung zwischen Datenquelle und Speicherort liegt. Per Deduplication aufbereitete Backup-Daten sind erheblich kleiner als die normalerweise anfallenden Mengen, damit lassen sich Außenstellen ausgezeichnet über WAN-Verbindungen auf einen zentralen Speicherort sichern.

Dedup-Appliance als Streamer-Ersatz

Anbieter mit Dedup-Appliances sind Asigra, EMC/Avamar, Copan Systems, Data Domain, Diligent, Exagrid und Sepaton. Größter Vorteil dieses Ansatzes ist, dass man die Appliance wie ein Bandlaufwerk in die Backup-Infrastruktur einfügen kann.

Andere Konzepte funktionieren rein auf Softwarebasis. Ein Agent am Server übernimmt die Analyse und stellt fest, was auf das Speichersystem geschrieben wird und was bereits vorhanden ist. Solche Produkte sind von Quantum, Falconstor und Microsoft erhältlich. Beim Backup-zentrierten Einsatz sind die Vor- und Nachteile relativ klar. An der Infrastruktur muss so gut wie nichts geändert werden, die Dedup-Engine hängt sozusagen am vorletzten Zipfel des Backupsystems und wird nur beim Sichern aktiv. Das lässt sich einfach in bestehende Systemumgebungen einfügen, das Management ist nicht kompliziert und die zusätzliche Schicht an Software, die zwischen Benutzer und Daten liegt, spielt nur beim Backup eine Rolle.

Nicht erst beim Backup anwenden

Denn einige Kunden äußerten bereits Unbehagen bei dem Gedanken, dass sie nur über den Umweg der Index-Datenbank wieder auf ihre Dateien zugreifen können. Totalverlust oder Korruption der Datenbankbank hätte weitreichende Auswirkungen, wenn auch die eigentlichen Produktionsdaten nicht betroffen sind. Nutzt man das Deduplication-System sozusagen an der Quelle der Daten, so dass redundante Kopien gar nicht erst entstehen, spart das natürlich eine Menge mehr Speicherplatz. Nicht nur auf den Storage-Systemen, die zur Datensicherung bestimmt sind, sondern schon in der Produktionsumgebung. Dann allerdings steht und fällt alles mit der Verfügbarkeit der Deduplication Software und ihrer uneingeschränkten Funktion.

Goldgräberstimmung

Im Moment ist der Markt noch weitgehend ungeordnet. Die großen Mitspieler wie EMC, Network Appliance und Quantum haben sich bereits durch Aufkäufe in den Besitz von Technologie und Produkten gebracht. In den nächsten Monaten steht die Integration in die maßgeblichen Produktlinien an. Kunden der Major-Player dürften sich eher an deren Dedup-Angeboten orientieren, um Schwierigkeiten bei der Kompatibilität aus dem Weg zu gehen. Aber auch die (noch) selbstständig gebliebenen Hersteller haben attraktive Produkte im Angebot, die sich durch einfache Integration und günstige Einstiegspreise auszeichnen. Beeindruckende Reduktionsfaktoren mal beiseite gelassen, die ersten Kundenerfahrungen mit Deduplication sind durchweg positiv.

Massive Einsparungen

Zweistellige Einsparungen beim Platzbedarf für das Backup werden immer erreicht, Daten können bei Disk-Speicher länger online gehalten werden und verbrauchen weniger Platz auf den Bandsystemen. Klar ist wohl, dass sich Deduplication im Backup-Bereich durchsetzen wird. Die Technik ist schon vom logischen Gesichtspunkt aus sinnvoll; identische Daten mehrfach zu sichern ist Verschwendung und auch durch Redundanz nicht zu rechtfertigen. Zählt man noch den Kostenfaktor dazu, werden die Unternehmen schnell in Richtung Deduplication einschwenken. „Im Moment erzeugt Deduplication eine Menge Aufregung,“ sagt David Russel, Gartner Vice President Storage and Strategies. „Die wird mit der Zeit abnehmen, doch die Technologie bleibt uns sicher erhalten, ihre Vorteile sind einfach zu überzeugend.“

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 2002834 / Bandlaufwerke)