Data Deduplication Bauplan für die Einmaligkeit

Autor / Redakteur: Wolfgang Weith / Nico Litzel

Die Herausforderung des exponentiellen Daten- und Speicherwachstums bewältigen viele IT-Verantwortliche bislang durch das simple Hinzufügen von immer mehr Primär- und Sekundärspeichern. Eine Technologie wird hiermit aufräumen: Data Deduplication.

Anbieter zum Thema

Das Problem der Lagerkosten beschäftigt die Speicherindustrie schon seit vielen Jahren. Vor einigen Jahren ist sie gar auf das aufwendige Konzept des Information Lifecycle Managements (ILM) verfallen. Ein „interessanter“ Versuch, den Kunden aufgrund unterschiedlicher Plattformpreise eine Speicherhierarchie mit herstellerspezifischem Management schmackhaft zu machen.

Doch jeder Anwender, der hinter die Datenmassen schaut, erkennt nicht nur Datenwachstum, sondern viele Duplikate. Deutlich bei jedem E-Mail-Programm zu sehen, aber auch bei Produktiv- und Testumgebungen. Und wer heute noch sein tägliches Backup macht, weiß, dass hier Lagerflächen x-mal mit den gleichen Daten belegt sind.

Bildergalerie

Manch einer hat schon seit langem ein vernünftiges Löschprogramm gefordert, um der Platzverschwendung auf den Speichersystemen Herr zu werden. Mit Data Deduplication gibt es nun ein Räumkommando, das nicht nur Platz schafft, sondern auch die Verstopfung auf den Informationsstraßen beseitigt. Hier ist nicht die Rede von traditionellen Kompressionsverfahren, die je nach technischer oder vertrieblicher Realität Effizienzen von 1,2:1 oder auch 2:1 erreichen, sondern Verfahren, die weit darüber hinausgehen.

Was bedeutet Data Deduplication?

Anders als Kompression ist Deduplication (deutsch: Deduplizierung) ein technologischer Ansatz, der Daten massiv auf das geringst mögliche Minimum an gemeinsamen und wiederkehrenden Mustern reduziert, was im Vergleich zu den gespeicherten oder transferierten Originaldaten Kapazitätsersparnisse von 20:1 erreichen kann.

Ein kurzes Beispiel soll das erläutern. Abbildung 1 zeigt ein traditionelles Backup ohne Kompression. Die wiederkehrenden Datenmuster werden auf das Band übertragen und verbrauchen dort einen bestimmten Platz. Nehmen wir an, diese Daten werden immer wieder gesichert (wöchentlich, monatlich etc.), so nehmen diese Daten beispielsweise nach drei Backups dreimal soviel Platz ein.

Weiter mit: Klassische Kompressionsmethoden und Deduplizierung im Detail

Die zweite Abbildung zeigt die gleiche Situation unter Verwendung von klassischen Kompressionsmethoden. Der Platzbedarf sinkt, da das Muster ABC ABC ABC Platz sparend auch durch 3 ABC abgebildet werden kann. Immer noch belegt jedes weitere Voll-Backup weitere Speicherkapazität, obwohl identische Daten abgelegt werden.

Abbildung 3 zeigt nun vereinfacht, wie unter Verwendung einer intelligenten Methode zur Deduplizierung die bestehenden Muster analysiert und referenziert werden. Das bedeutet, dass auch bei mehreren Vollbackups die doppelten (duplizierten) Daten nicht nochmals gesichert werden, sondern nur als Querverweise (oder Metadaten) auf die schon abgelegten – und damit identischen – Daten zeigen. Dies spart gegenüber der klassischen Kompression zusätzlichen Speicherplatz. In der Praxis bedeutet das: Die Wahrscheinlichkeit auf identische Muster (Bit-Folgen) steigt, je mehr Muster erkannt und gespeichert werden. Mit zunehmendem Datenvolumen wird die Effizienz der Deduplizierung noch größer, also eine noch höhere Platzersparnis erreicht.

Implementierungsmöglichkeiten

In der Praxis stellt sich die Frage, in welchen Bereichen Datendeduplizierung denn verwendet werden kann. Grundsätzlich bieten sich die zwei Einsatzgebiete Deduplizierung von Daten in Ruhe (auf dem Primärspeicher, den Backupmedien oder im Archiv) und Deduplizierung von Daten in Bewegung an (beim Transfer über Netzwerke).

Im Folgenden soll ein kurzer Blick auf diese beiden Einsatzgebiete geworfen werden.

Beispiel Backup

Backup und Archivierung sind sicherlich bevorzugte Einsatzgebiete für Datendeduplizierung, da hier vor allem immer wiederkehrende Voll-Backups (wie oben erläutert) Speicherplatz belegen, den intelligente Verfahren drastisch reduzieren können.

Die Implementierungsmöglichkeiten reichen hier von der reinen Backup-Software bis hin zu Virtuellen Tape Libraries (VTLs). Softwareseitig verwendet beispielsweise IBMs Tivoli Storage Manager eine „incremental forever“-Strategie. Das heißt, dass nur einmal ganz zu Beginn ein Voll-Backup benötigt wird und danach nur noch inkrementell die Änderungen gesichert werden. Das erfolgt allerdings in der Regel auf Dateiebene. Für die Wiederherstellung hätte dies in der Praxis natürlich die Folge, dass die Dateien auf sehr vielen verschiedenen Medien liegen. Bisheriger Nachteil: Im Katastrophenfall ergeben sich durch viele Medienwechsel sehr lange Wiederherstellungszeiten.

Weiter mit: Aus deduplizierten Daten lassen sich synthetische Voll-Backups erzeugen

Um dem entgegen zu wirken, können aus den deduplizierten Daten bei Bedarf synthetisch Voll-Backups erzeugt werden und auf Medien geschrieben werden, die dann beispielsweise als Disaster-Recovery-Medien für eine schnelle Wiederherstellung dienen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Die Virtuellen Tape Libraries, die ohnehin nur Medien emulieren, arbeiten häufig nicht auf der File- sondern auf Block- oder Bitmusterebene. Schon deshalb sind diese Systeme für die Dubletteneliminierung prädestiniert. Da hier die Deduplizierung auf der Ebene der VTL-Hardware erfolgt, muss die Backup-Applikation keine spezielle Fähigkeit zur Deduplizierung haben.

Beispiel Netzwerktransfer

Der zweite spannende Bereich ist die Deduplizierung von Daten im Transit. Vor allem bei einer Übertragung über das WAN spielen geringe Bandbreiten und hohe Latenzen ein traurige Rolle, da WAN-Verbindungen meistens weniger als ein Zehntel der Bandbreite bereitstellen, die die lokalen Systeme (LAN oder SAN) bieten. Deduplizierung wird hierbei in der Regel mit Übertragungs-Devices an beiden Enden der WAN-Strecke realisiert, die Daten intelligent analysieren und zwischenspeichern, um dann nur die jeweiligen Referenzen (oder Wiederaufbau-Anleitungen, auch Hashes genannt) an die Gegenstelle zu übertragen. Nur neue und bisher nicht bekannte Datenmuster müssen hierbei einmalig komplett übertragen werden. Wurden Datenmuster schon einmal übertragen, sind sie bekannt und können durch die jeweiligen Hashes ersetzt werden. Dadurch erscheint es so, als würde der Netzwerktransfer tatsächlich beschleunigt. Das Schöne an diesen Lösungen ist, dass die Wahrscheinlichkeit für wiederkehrende Datenmuster mit zunehmender Betriebsdauer und zunehmenden Datenvolumina steigt.

Kosten-/Nutzenüberlegungen

Aufgrund der vorangegangen Ausführungen sind auch die Kosten-Nutzenüberlegungen sehr klar. Zu Beginn der Einführung von Deduplication-Lösungen stehen die Anschaffungskosten. Gerade wenn Hardware wie Virtuelle Tape Libraries oder WAN-Optimierer angeschafft wird, mögen zunächst beträchtliche Kosten entstehen.

Aufgrund der Natur der Deduplizierungslösungen steigt aber der potenzielle Return on Invest (ROI) mit zunehmender Betriebsdauer überproportional schnell an, weswegen diese intelligenten Systeme klassischen Systemen (die nur komprimieren) definitiv vorzuziehen sind. Es braucht keine hellseherische Kraft, um vorherzusagen, dass wir in Zukunft sehr viele dieser Lösungen in allen Bereichen der Storage-Infrastruktur sehen werden.

(ID:2004208)