Augen auf bei der Storage-Wahl! Backups und Deduplizierung: selbstverständlich, aber nicht selbsterklärend
Anbieter zum Thema
Aktuelle Backups sind ein wichtiger Bestandteil jeder ernstzunehmenden IT-Sicherheitsstrategie. Hätte es noch einer Erinnerung an diese Tatsache bedurft, die zahlreichen Ransomware-Attacken der jüngsten Vergangenheit, welche Unternehmen und Behörden lahmlegten, hätten diese geliefert. Eine besondere Herausforderung für das Erstellen aktueller Backups ist das enorme Wachstum der Datenmengen.

Nicht zuletzt deshalb integrieren Organisationen Datendeduplikation in ihren Backup-Prozess. Die Wahl der richtigen Deduplikationsmethode kann sich dabei einschneidend auf die Kosten für Backups auswirken. Die verschiedenen Methoden sind auch technisch derart unterschiedlich, dass man beinahe von „Etikettenschwindel“ sprechen kann, wenn man sie alle als „Deduplikation“ bezeichnet.
Datenkomprimierung
Ein gutes Beispiel ist die verlustfreie Datenkomprimierung. Sie nutzt die statistische Redundanz von Daten für eine Verringerung der Datenmenge ohne Informationsverlust. Verlustfreie Datenkomprimierung wird inzwischen seit Jahrzehnten eingesetzt und ist Bestandteil vieler Formate. Die Dateigröße eines GIF-Bildes zum Beispiel wird mit Lempel-Ziv-Welch-Komprimierung (LZW) verringert, ohne Informationen zu verlieren.
Single-Instance Storage
Single-Instance Storage kann zum Einsatz kommen, wenn eine Datei mehrfach vorliegt. In dem Falle wird lediglich eine der Dateien gespeichert. Die anderen Dateien werden durch eine Referenz auf diese Datei ersetzt. Allerdings funktioniert das nur, wenn die Dateien identisch sind. Ändert sich eine Kleinigkeit in der Datei, wird die gesamte Datei neu gespeichert. Das mag in Ordnung sein für Systeme, deren Struktur mit vielfach denselben Inhalten gefüllt werden, für Produktivspeicher beispielsweise oder für E-Mail-Server. Für Backups ist diese Methode eher nicht geeignet.
Deduplizierung mit fixer Blocklänge
Mit der Deduplizierung mit fixer Blocklänge betreten wir ein Gebiet, das eindeutig zu den eigentlichen Deduplizierungsmethoden zu zählen ist. Deduplizierung mit fixer Blocklänge nimmt einen Datenstrom und unterteilt ihn in Blöcke einer festen Größe. Diese Datenblöcke werden als „Chunks“ bezeichnet. Diese Chunks werden dann mit verschiedenen Methoden genau verglichen.
Wenn zwei Chunks identisch sind, werden nur ein einziger und jeweils eine Referenz für jede weitere Übereinstimmung gespeichert. Das ist dieselbe Herangehensweise wie bei der Single-Instance Storage, nur auf einer Ebene unter- beziehungsweise innerhalb von Dateien, den Chunks. Diese Methodik ist deutlich besser für Backups geeignet als Single-Instance Storage, ist aber begrenzt. Sie funktioniert gut bei einigen Datentypen, die direkt im Dateisystem gespeichert sind, weil es sich um ausgerichtete Datenelemente handelt, die in Chunks von 4k, 8k oder 32k geschrieben sind.
Das gilt zum Beispiel für virtuelle Maschinen. In diesem Fall kann Deduplizierung mit fixer Blocklänge sehr effektiv sein, funktioniert jedoch nicht gut bei einer Mischung von Daten, bei denen diese Grenzen nicht konsistent sind, oder wenn sie durch unterschiedliche Software-Typen gesichert werden, wodurch die Ausrichtung abweicht. Organisationen haben es in der Praxis mit Daten zu tun, die alles andere als konsistent sind und je nach Typ über eine unterschiedliche Zusammensetzung, Blockgröße, Ausrichtung und Inhalte verfügen.
:quality(80)/images.vogel.de/vogelonline/bdb/1844300/1844326/original.jpg)
Storage-Insider-Podcast: Datensicherung und Business Continuity – wie Unternehmen eine Backup-Strategie entwickeln
Backup in der Praxis
Deduplizierung mit variabler Blocklänge
Um die genannten Begrenzungen der Deduplizierung mit fixer Blocklänge zu überwinden, wurde die Deduplizierung mit variabler Blocklänge entwickelt. Diese ermöglicht es, identische Blöcke in verschiedenen Dateiarten zu erkennen und zu deduplizieren. Blöcke unterschiedlicher Größe zu identifizieren, die sich in anderen Dateitypen wiederfinden lassen, stellt eine große Herausforderung dar. Mathematiker mussten helfen, diese Herausforderung zu bewältigen.
Konkret kommt bei der Deduplizierung mit variabler Blocklänge der Prozess des Rabin-Fingerprintings innerhalb eines Schiebefensters im Datenstrom zur Anwendung. Anfang der ’80er-Jahre des letzten Jahrhunderts hat der israelische Informatiker Michael O. Rabin ein neues Verfahren zur Berechnung eines Fingerabdrucks im Sinne einer Hash-Funktion oder einer Abbildung beschrieben, die eine große Eingabemenge nahezu eindeutig auf eine kleinere Zielmenge abbildet. Ein Schiebefenster ist ein bestimmtes Zeitfenster im Datenstrom. Im Falle der Datendeduplizierung läuft nun ein Rabin-Algorithmus über die Daten in einem solchen Schiebefenster und kreiert einen Block, wenn er eine einzigartige Gruppe an Bytes identifiziert. Diese Gruppe an Bytes lässt sich im Folgenden immer wieder im Datenstrom identifizieren, unabhängig von der Art der Daten, die gerade verarbeitet werden.
Insgesamt liefert das Schiebefenster mehr Übereinstimmungen und reduziert daher die Menge an Daten, die gespeichert werden müssen. So spart diese Methode zusätzlichen Speicherplatz im Vergleich zu anderen Deduplikationsmethoden.
Inhaltsabhängige Deduplizierung mit variabler Blocklänge
Eine weitere Reduktion des benötigten Speicherplatzes kann durch eine Methode erzielt werden, die den Inhalt des Datenstroms berücksichtigt. Hierzu kommen Algorithmen zum Einsatz, die in der Lage sind, die Inhalte der Blöcke variabler Größe weiter zu untersuchen. Dieser Prozess findet auf einer Metaebene statt. Ein Algorithmus identifiziert hierbei Muster, die innerhalb der Blöcke variabler Größe auftauchen, speichert jeweils nur eine Version dieser Muster und referenziert jedes weitere Vorkommen. Deduplizierung mit variabler Blocklänge und Inhaltsanalyse bildet aktuell die effizienteste Methode zur Datendeduplizierung.
Frisch an der Quelle
Für die Effizienz der Datendeduplizierung ist nicht nur wichtig, welche Methode zum Einsatz kommt, sondern auch wann sie im Datenverarbeitungszyklus angewandt wird. Der Zeitpunkt der Deduplizierung wird besonders relevant, wenn man den Blick weitet und nicht wie bisher die Sicherung eines einzelnen Systems betrachtet, sondern die parallele Sicherung mehrerer Anwendungen und Systeme.
Um so viele Daten wir möglich im Backup sichern zu können, ohne die Anwender zu beeinträchtigen, nutzen die meisten IT-Abteilungen ein Backup-Zeitfenster außerhalb der Geschäftszeiten, um die Datensicherung durchzuführen. Dieser Ansatz wird in der Zeit der 24/7-Ökonomie immer weniger anwendbar. Es besteht mehr als ein Problem. Das erste ist, dass der Anwendungsserver seine Netzwerkverbindung aus- oder überlastet. Das zweite ist das Zielsystem, dessen Netzwerkverbindung mit den Datenströmen von all den zu sichernden Systemen belastet wird.
Da Zeit eine endliche Größe ist, kann eine Organisation an den Punkt gelangen, dass sie nicht mehr alle relevanten Daten im Backup-Zeitfenster sichern kann. Verbesserungen können erzielt werden, wenn man Ressourcen auf jedem der Anwendungsserver nutzt, die gesichert werden müssen. So kann das erste Problem adressiert werden, indem man Hashes der Daten im Sicherungsdatenstrom auf dem Quellserver erzeugt und so nur eindeutige Daten über das Netzwerk senden muss. Dies verursacht zwar ein wenig Overhead auf den Anwendungsservern, sorgt aber dafür, dass die Netzwerkverbindungen nicht überlastet werden.
Das trägt auch zur Lösung des zweiten Problems bei. Weil weniger Daten über das Netz geschickt werden, besteht die Möglichkeit, mehr Sicherungen parallel laufen zu lassen. Wenn dies der Fall ist, kann entweder das Backup-Fenster verkleinert werden, oder während des gleichen Zeitfensters können mehr Daten gesichert werden.
:quality(80)/images.vogel.de/vogelonline/bdb/1684200/1684278/original.jpg)
Umfassend geschützt: So sichern Sie Ihre Daten ab
Gefahren, Medien, Methoden – was Sie beim Backup beachten müssen
Kostspielige Kompromisse
Die Auswirkungen der Wahl einer falschen Deduplizierungsmethode lassen sich am besten durch die Höhe der damit verbundenen Kosten verdeutlichen. Betrachten wir einen Datensatz mit einer Größe von 100 TB. Um die Sache einfach zu halten, nehmen wir an, eine Organisation möchte wöchentliche Backups durchführen und diese für zwölf Wochen aufbewahren. Jede Woche würde dem Speichersystem 100 TB an Daten hinzufügen. Ohne Deduplizierung wären nach drei Monaten 1,2 PB Speicherplatz verbraucht, bevor die anfänglichen Backups gelöscht werden.
Eine Deduplizierung mit fixer Blocklänge würde die Datenmenge um 30 Prozent verringern. Das würde den Speicherbedarf auf 840 TB reduzieren. Das ist eine gute Einsparung, aber der Speicherbedarf ist immer noch beträchtlich.
Eine inhaltsabhängige Deduplizierung mit variabler Blocklänge hingegen würde eine Reduktion der Datenmenge von bis zu 93 Prozent bringen. Der Speicherbedarf würde auf 84 TB sinken. Das bedeutet eine Einsparung bis zu einem Faktor zehn gegenüber einem Backup-Prozess ohne Deduplizierung. Die möglichen Kosteneinsparungen durch Wahl der richtigen Deduplikationsmethode sind enorm, insbesondere wenn man noch die Kosten für den benötigten Strom mit in die Rechnung einbezieht und eventuell noch die Miete der Racks, wenn man ein Colocation-Rechenzentrum nutzt.
Augen auf bei der Storage-Wahl
Bei der Suche nach der optimalen Speicherlösung für Daten-Backups gilt es aufgrund der beschriebenen Zusammenhänge, nicht nur auf die reinen Performance-Daten des Systems zu achten. Es ist auch wichtig, welche Methoden der Deduplizierung eingesetzt werden können.
Im Laufe der letzten Jahre kamen häufig Deduplizierungs-Appliances zum Einsatz, feste Kombinationen auf Hard- und Software. Dieser Ansatz hat sich einige Zeit bewährt, aber die Art der IT-Infrastruktur verändert sich und muss flexibler sein. Darüber hinaus ist es finanziell nicht sinnvoll, die Deduplizierungs-Software im selben Turnus zu erneuern wie die Speicher-Hardware, also alle drei bis fünf Jahre, wozu man gezwungen ist, wenn man Appliances einsetzt. Im Prinzip zahlt man in diesen Fällen zweimal für dieselben Software-Funktionen, weil sich die gebotenen Software-Funktionen einer Appliance von Hardware-Generation zu Hardware-Generation nicht signifikant weiterentwickeln.
Darum ist eine eigenständige Deduplikations-Software vorzuziehen, die direkt auf einem Server, in einer virtuellen Maschine oder in der Cloud installiert werden kann. Das vermeidet auch Vendor-Lock-in, was schon deshalb vorteilhaft ist, weil nicht notwendigerweise der Anbieter mit dem besten Hardware-Angebot auch die beste Software liefert. Und wenn die Zeit kommt, die Hardware zu erneuern, muss nur für diese gezahlt werden, während die Deduplikations-Software ohne neue Kosten weiter genutzt werden kann.
*Der Autor: Andreas Schmiedler, Software Account Manager - Data Protection bei Quest Software
(ID:47688011)