Bauplan für die Einmaligkeit

Anbieter zum Thema

Die zweite Abbildung zeigt die gleiche Situation unter Verwendung von klassischen Kompressionsmethoden. Der Platzbedarf sinkt, da das Muster ABC ABC ABC Platz sparend auch durch 3 ABC abgebildet werden kann. Immer noch belegt jedes weitere Voll-Backup weitere Speicherkapazität, obwohl identische Daten abgelegt werden.

Abbildung 3 zeigt nun vereinfacht, wie unter Verwendung einer intelligenten Methode zur Deduplizierung die bestehenden Muster analysiert und referenziert werden. Das bedeutet, dass auch bei mehreren Vollbackups die doppelten (duplizierten) Daten nicht nochmals gesichert werden, sondern nur als Querverweise (oder Metadaten) auf die schon abgelegten – und damit identischen – Daten zeigen. Dies spart gegenüber der klassischen Kompression zusätzlichen Speicherplatz. In der Praxis bedeutet das: Die Wahrscheinlichkeit auf identische Muster (Bit-Folgen) steigt, je mehr Muster erkannt und gespeichert werden. Mit zunehmendem Datenvolumen wird die Effizienz der Deduplizierung noch größer, also eine noch höhere Platzersparnis erreicht.

Implementierungsmöglichkeiten

In der Praxis stellt sich die Frage, in welchen Bereichen Datendeduplizierung denn verwendet werden kann. Grundsätzlich bieten sich die zwei Einsatzgebiete Deduplizierung von Daten in Ruhe (auf dem Primärspeicher, den Backupmedien oder im Archiv) und Deduplizierung von Daten in Bewegung an (beim Transfer über Netzwerke).

Im Folgenden soll ein kurzer Blick auf diese beiden Einsatzgebiete geworfen werden.

Beispiel Backup

Backup und Archivierung sind sicherlich bevorzugte Einsatzgebiete für Datendeduplizierung, da hier vor allem immer wiederkehrende Voll-Backups (wie oben erläutert) Speicherplatz belegen, den intelligente Verfahren drastisch reduzieren können.

Die Implementierungsmöglichkeiten reichen hier von der reinen Backup-Software bis hin zu Virtuellen Tape Libraries (VTLs). Softwareseitig verwendet beispielsweise IBMs Tivoli Storage Manager eine „incremental forever“-Strategie. Das heißt, dass nur einmal ganz zu Beginn ein Voll-Backup benötigt wird und danach nur noch inkrementell die Änderungen gesichert werden. Das erfolgt allerdings in der Regel auf Dateiebene. Für die Wiederherstellung hätte dies in der Praxis natürlich die Folge, dass die Dateien auf sehr vielen verschiedenen Medien liegen. Bisheriger Nachteil: Im Katastrophenfall ergeben sich durch viele Medienwechsel sehr lange Wiederherstellungszeiten.

Weiter mit: Aus deduplizierten Daten lassen sich synthetische Voll-Backups erzeugen

(ID:2004208)

Data Deduplication

Bauplan für die Einmaligkeit

Implementierungsmöglichkeiten

Beispiel Backup