Backups und Deduplizierung: selbstverständlich, aber nicht selbsterklärend

Augen auf bei der Storage-Wahl! Backups und Deduplizierung: selbstverständlich, aber nicht selbsterklärend

05.10.2021 Von Andreas Schmiedler*

Anbieter zum Thema

Aktuelle Backups sind ein wichtiger Bestandteil jeder ernstzunehmenden IT-Sicherheitsstrategie. Hätte es noch einer Erinnerung an diese Tatsache bedurft, die zahlreichen Ransomware-Attacken der jüngsten Vergangenheit, welche Unternehmen und Behörden lahmlegten, hätten diese geliefert. Eine besondere Herausforderung für das Erstellen aktueller Backups ist das enorme Wachstum der Datenmengen.

Bei den Deduplizierungsmethoden zur Backup-Erstellung gibt es gravierende Unterschiede.(Bild: © jakub pavlinec 2013) — Bei den Deduplizierungsmethoden zur Backup-Erstellung gibt es gravierende Unterschiede.
(Bild: © jakub pavlinec 2013)

Nicht zuletzt deshalb integrieren Organisationen Datendeduplikation in ihren Backup-Prozess. Die Wahl der richtigen Deduplikationsmethode kann sich dabei einschneidend auf die Kosten für Backups auswirken. Die verschiedenen Methoden sind auch technisch derart unterschiedlich, dass man beinahe von „Etikettenschwindel“ sprechen kann, wenn man sie alle als „Deduplikation“ bezeichnet.

Datenkomprimierung

Ein gutes Beispiel ist die verlustfreie Datenkomprimierung. Sie nutzt die statistische Redundanz von Daten für eine Verringerung der Datenmenge ohne Informationsverlust. Verlustfreie Datenkomprimierung wird inzwischen seit Jahrzehnten eingesetzt und ist Bestandteil vieler Formate. Die Dateigröße eines GIF-Bildes zum Beispiel wird mit Lempel-Ziv-Welch-Komprimierung (LZW) verringert, ohne Informationen zu verlieren.

Single-Instance Storage

Single-Instance Storage kann zum Einsatz kommen, wenn eine Datei mehrfach vorliegt. In dem Falle wird lediglich eine der Dateien gespeichert. Die anderen Dateien werden durch eine Referenz auf diese Datei ersetzt. Allerdings funktioniert das nur, wenn die Dateien identisch sind. Ändert sich eine Kleinigkeit in der Datei, wird die gesamte Datei neu gespeichert. Das mag in Ordnung sein für Systeme, deren Struktur mit vielfach denselben Inhalten gefüllt werden, für Produktivspeicher beispielsweise oder für E-Mail-Server. Für Backups ist diese Methode eher nicht geeignet.

Deduplizierung mit fixer Blocklänge

Mit der Deduplizierung mit fixer Blocklänge betreten wir ein Gebiet, das eindeutig zu den eigentlichen Deduplizierungsmethoden zu zählen ist. Deduplizierung mit fixer Blocklänge nimmt einen Datenstrom und unterteilt ihn in Blöcke einer festen Größe. Diese Datenblöcke werden als „Chunks“ bezeichnet. Diese Chunks werden dann mit verschiedenen Methoden genau verglichen.

Wenn zwei Chunks identisch sind, werden nur ein einziger und jeweils eine Referenz für jede weitere Übereinstimmung gespeichert. Das ist dieselbe Herangehensweise wie bei der Single-Instance Storage, nur auf einer Ebene unter- beziehungsweise innerhalb von Dateien, den Chunks. Diese Methodik ist deutlich besser für Backups geeignet als Single-Instance Storage, ist aber begrenzt. Sie funktioniert gut bei einigen Datentypen, die direkt im Dateisystem gespeichert sind, weil es sich um ausgerichtete Datenelemente handelt, die in Chunks von 4k, 8k oder 32k geschrieben sind.

Das gilt zum Beispiel für virtuelle Maschinen. In diesem Fall kann Deduplizierung mit fixer Blocklänge sehr effektiv sein, funktioniert jedoch nicht gut bei einer Mischung von Daten, bei denen diese Grenzen nicht konsistent sind, oder wenn sie durch unterschiedliche Software-Typen gesichert werden, wodurch die Ausrichtung abweicht. Organisationen haben es in der Praxis mit Daten zu tun, die alles andere als konsistent sind und je nach Typ über eine unterschiedliche Zusammensetzung, Blockgröße, Ausrichtung und Inhalte verfügen.

Neuer Podcast: Storage-Insider im Gespräch mit Christian Kubik von Commvault zum Thema „Backup in der Praxis“. (Vogel IT-Medien)

Deduplizierung mit variabler Blocklänge

Um die genannten Begrenzungen der Deduplizierung mit fixer Blocklänge zu überwinden, wurde die Deduplizierung mit variabler Blocklänge entwickelt. Diese ermöglicht es, identische Blöcke in verschiedenen Dateiarten zu erkennen und zu deduplizieren. Blöcke unterschiedlicher Größe zu identifizieren, die sich in anderen Dateitypen wiederfinden lassen, stellt eine große Herausforderung dar. Mathematiker mussten helfen, diese Herausforderung zu bewältigen.

Konkret kommt bei der Deduplizierung mit variabler Blocklänge der Prozess des Rabin-Fingerprintings innerhalb eines Schiebefensters im Datenstrom zur Anwendung. Anfang der ’80er-Jahre des letzten Jahrhunderts hat der israelische Informatiker Michael O. Rabin ein neues Verfahren zur Berechnung eines Fingerabdrucks im Sinne einer Hash-Funktion oder einer Abbildung beschrieben, die eine große Eingabemenge nahezu eindeutig auf eine kleinere Zielmenge abbildet. Ein Schiebefenster ist ein bestimmtes Zeitfenster im Datenstrom. Im Falle der Datendeduplizierung läuft nun ein Rabin-Algorithmus über die Daten in einem solchen Schiebefenster und kreiert einen Block, wenn er eine einzigartige Gruppe an Bytes identifiziert. Diese Gruppe an Bytes lässt sich im Folgenden immer wieder im Datenstrom identifizieren, unabhängig von der Art der Daten, die gerade verarbeitet werden.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Insgesamt liefert das Schiebefenster mehr Übereinstimmungen und reduziert daher die Menge an Daten, die gespeichert werden müssen. So spart diese Methode zusätzlichen Speicherplatz im Vergleich zu anderen Deduplikationsmethoden.

Inhaltsabhängige Deduplizierung mit variabler Blocklänge

Eine weitere Reduktion des benötigten Speicherplatzes kann durch eine Methode erzielt werden, die den Inhalt des Datenstroms berücksichtigt. Hierzu kommen Algorithmen zum Einsatz, die in der Lage sind, die Inhalte der Blöcke variabler Größe weiter zu untersuchen. Dieser Prozess findet auf einer Metaebene statt. Ein Algorithmus identifiziert hierbei Muster, die innerhalb der Blöcke variabler Größe auftauchen, speichert jeweils nur eine Version dieser Muster und referenziert jedes weitere Vorkommen. Deduplizierung mit variabler Blocklänge und Inhaltsanalyse bildet aktuell die effizienteste Methode zur Datendeduplizierung.

Frisch an der Quelle

Für die Effizienz der Datendeduplizierung ist nicht nur wichtig, welche Methode zum Einsatz kommt, sondern auch wann sie im Datenverarbeitungszyklus angewandt wird. Der Zeitpunkt der Deduplizierung wird besonders relevant, wenn man den Blick weitet und nicht wie bisher die Sicherung eines einzelnen Systems betrachtet, sondern die parallele Sicherung mehrerer Anwendungen und Systeme.

Um so viele Daten wir möglich im Backup sichern zu können, ohne die Anwender zu beeinträchtigen, nutzen die meisten IT-Abteilungen ein Backup-Zeitfenster außerhalb der Geschäftszeiten, um die Datensicherung durchzuführen. Dieser Ansatz wird in der Zeit der 24/7-Ökonomie immer weniger anwendbar. Es besteht mehr als ein Problem. Das erste ist, dass der Anwendungsserver seine Netzwerkverbindung aus- oder überlastet. Das zweite ist das Zielsystem, dessen Netzwerkverbindung mit den Datenströmen von all den zu sichernden Systemen belastet wird.

Da Zeit eine endliche Größe ist, kann eine Organisation an den Punkt gelangen, dass sie nicht mehr alle relevanten Daten im Backup-Zeitfenster sichern kann. Verbesserungen können erzielt werden, wenn man Ressourcen auf jedem der Anwendungsserver nutzt, die gesichert werden müssen. So kann das erste Problem adressiert werden, indem man Hashes der Daten im Sicherungsdatenstrom auf dem Quellserver erzeugt und so nur eindeutige Daten über das Netzwerk senden muss. Dies verursacht zwar ein wenig Overhead auf den Anwendungsservern, sorgt aber dafür, dass die Netzwerkverbindungen nicht überlastet werden.

Das trägt auch zur Lösung des zweiten Problems bei. Weil weniger Daten über das Netz geschickt werden, besteht die Möglichkeit, mehr Sicherungen parallel laufen zu lassen. Wenn dies der Fall ist, kann entweder das Backup-Fenster verkleinert werden, oder während des gleichen Zeitfensters können mehr Daten gesichert werden.

Viele Gefahren drohen gespeicherten Daten. Auch wenn etwa niemand gern an den Katastrophenfall denkt, ist Verdrängen keine Lösung. (© Mingman Srilakorn - stock.adobe.com)

Kostspielige Kompromisse

Die Auswirkungen der Wahl einer falschen Deduplizierungsmethode lassen sich am besten durch die Höhe der damit verbundenen Kosten verdeutlichen. Betrachten wir einen Datensatz mit einer Größe von 100 TB. Um die Sache einfach zu halten, nehmen wir an, eine Organisation möchte wöchentliche Backups durchführen und diese für zwölf Wochen aufbewahren. Jede Woche würde dem Speichersystem 100 TB an Daten hinzufügen. Ohne Deduplizierung wären nach drei Monaten 1,2 PB Speicherplatz verbraucht, bevor die anfänglichen Backups gelöscht werden.

Eine Deduplizierung mit fixer Blocklänge würde die Datenmenge um 30 Prozent verringern. Das würde den Speicherbedarf auf 840 TB reduzieren. Das ist eine gute Einsparung, aber der Speicherbedarf ist immer noch beträchtlich.

Eine inhaltsabhängige Deduplizierung mit variabler Blocklänge hingegen würde eine Reduktion der Datenmenge von bis zu 93 Prozent bringen. Der Speicherbedarf würde auf 84 TB sinken. Das bedeutet eine Einsparung bis zu einem Faktor zehn gegenüber einem Backup-Prozess ohne Deduplizierung. Die möglichen Kosteneinsparungen durch Wahl der richtigen Deduplikationsmethode sind enorm, insbesondere wenn man noch die Kosten für den benötigten Strom mit in die Rechnung einbezieht und eventuell noch die Miete der Racks, wenn man ein Colocation-Rechenzentrum nutzt.

Augen auf bei der Storage-Wahl

Bei der Suche nach der optimalen Speicherlösung für Daten-Backups gilt es aufgrund der beschriebenen Zusammenhänge, nicht nur auf die reinen Performance-Daten des Systems zu achten. Es ist auch wichtig, welche Methoden der Deduplizierung eingesetzt werden können.

Im Laufe der letzten Jahre kamen häufig Deduplizierungs-Appliances zum Einsatz, feste Kombinationen auf Hard- und Software. Dieser Ansatz hat sich einige Zeit bewährt, aber die Art der IT-Infrastruktur verändert sich und muss flexibler sein. Darüber hinaus ist es finanziell nicht sinnvoll, die Deduplizierungs-Software im selben Turnus zu erneuern wie die Speicher-Hardware, also alle drei bis fünf Jahre, wozu man gezwungen ist, wenn man Appliances einsetzt. Im Prinzip zahlt man in diesen Fällen zweimal für dieselben Software-Funktionen, weil sich die gebotenen Software-Funktionen einer Appliance von Hardware-Generation zu Hardware-Generation nicht signifikant weiterentwickeln.

Andreas Schmiedler, Software Account Manager - Data Protection bei Quest Software.(Bild: Quest Software) — Andreas Schmiedler, Software Account Manager - Data Protection bei Quest Software.
(Bild: Quest Software)

Darum ist eine eigenständige Deduplikations-Software vorzuziehen, die direkt auf einem Server, in einer virtuellen Maschine oder in der Cloud installiert werden kann. Das vermeidet auch Vendor-Lock-in, was schon deshalb vorteilhaft ist, weil nicht notwendigerweise der Anbieter mit dem besten Hardware-Angebot auch die beste Software liefert. Und wenn die Zeit kommt, die Hardware zu erneuern, muss nur für diese gezahlt werden, während die Deduplikations-Software ohne neue Kosten weiter genutzt werden kann.

*Der Autor: Andreas Schmiedler, Software Account Manager - Data Protection bei Quest Software

Das Storage-Kompendium zum Thema – kostenfreier Download

Die Zeiten, in denen Backups ausschließlich auf Tape angefertigt wurden, sind vorbei. Heute stellt sich die Situation bezüglich Backup-Medien und -Strategien deutlich vielfältiger dar, was auch zu Unsicherheiten führt.

Backup & Archivierung – gestern, heute und morgen

Storage-Kompendium Backup & Archivierung — Storage-Kompendium „Backup & Archivierung“
(Bildquelle: Storage-Insider)

Die Hauptthemen des Kompendiums sind:

Auf dem Weg zur passenden Backup-Strategie
Cloud-Backup und Hybrid-Backup
Tape – der wehrhafte Dinosaurier
Datensicherheit und Storage: Welche gesetzlichen Vorgaben gelten?
Langzeitarchivierung mit Objektspeicherung
Unstrukturierte Daten ohne Backup schützen
Erstklassige Backup- und Archivierungsstrategie

Storage-Kompendium „Backup & Archivierung“ kostenlos downloaden

(ID:47688011)