Signierte Chunks für höchste Datenintegrität Deduplizierung hält Einzug in den Tivoli Storage Manager

Autor / Redakteur: Klemens Poschke, IBM / Nico Litzel

IBM hat beim Einstieg in die „Entdoppelung“ der Backup-Daten lange gezögert. Zuerst wollte das Unternehmen selbst etwas entwickeln. Diese Anstrengung kumulierte dann im Kauf von Diligent. Acht Monate nach der Übernahme sind die ersten Implementierungsergebnisse im Tivoli Storage Manager angelangt. Weitere Ankündigungen und Produkte über die nun eigene Deduplizierungstechnik werden wohl im Laufe des Jahres folgen.

Firmen zum Thema

Version 6.1 des Tivoli Storage Managers bietet Deduplizierung auf Basis der TSM-Disk-Storagepools. Das Verfahren arbeitet ohne Beeinträchtigung der Backup-Performance als nachgelagerter Prozess.
Version 6.1 des Tivoli Storage Managers bietet Deduplizierung auf Basis der TSM-Disk-Storagepools. Das Verfahren arbeitet ohne Beeinträchtigung der Backup-Performance als nachgelagerter Prozess.
( Archiv: Vogel Business Media )

Die Datenmenge im Unternehmen steigt ungebremst – das verschlingt nicht nur viel Festplattenplatz, sondern droht immer wieder das Backup-Zeitfenster zu sprengen. Ein intelligentes Verfahren, Disk-Kapazität effizienter zu nutzen, ist die sogenannte Deduplizierung, die dafür sorgt, dass identische Datenblöcke nur einmal gesichert werden.

Dadurch wird das Datenvolumen reduziert, ohne dass Informationen verloren gehen. Auch der IBM Tivoli Storage Manager (TSM) – seit knapp 20 Jahren eine Standardanwendung im Bereich unternehmensweite Datensicherung und Archiv-Backend – bietet in seiner neuen Version kostenlos die Möglichkeit, beliebige Daten auf sich wiederholende Datenteile hin zu untersuchen und bei Übereinstimmung die Redundanzen zu eliminieren.

Daten-Deduplizierung – neuer Wein in alten Schläuchen?

Deduplizierung gehört zu den Datenreduktionsverfahren, die helfen sollen, Ressourcen effizienter zu nutzen. Außer der Deduplizierung zählt hierzu auch die Software/Tape-Komprimierung, bei der die Netzwerkbandbreite effizienter genutzt oder eine bessere Auslastung der Bandkapazität gewährleistet wird.

Ein weiteres Mittel, die Datenmenge zu reduzieren, ist das Single-Instance-Store-Verfahren (SIS), das in Anwendungsumgebungen verwendet wird, in denen generell viele redundante Dateien entstehen, wie etwa bei der Backup-Methode oder bei Anhängen in E-Mail-Datenbanken. SIS-Verfahren werden heute bei allen marktüblichen E-Mail-Archiv-Lösungen als Standardfunktion angeboten. SIS untersucht immer ganze Dateien oder Objekte nach Redundanzen. Der Tivoli Storage Manager nutzt eine Abwandlung von SIS in seinem „Incremental Forever“-Sicherungsverfahren.

Die Deduplizierung geht einen anderen Weg

Anders bei der Deduplizierung: Hier werden die Dateien in Segmente („Chunks“, „Extents“) aufgeteilt und die Segmente in einem Prozess von Signaturbildung miteinander verglichen. Das kann entweder vor dem Transport der Daten vom Client über das Netzwerk („source deduplication“) oder als Folgeprozess auf dem Zielsystem („target deduplication“) geschehen.

weiter mit: Jede Datei wird wieder aus gespeicherten Einzelstücken zusammengesetzt

Findet das Verfahren nun ein zweites Segment mit gleicher Signatur, wird das Segment als redundant markiert, der Verweis auf seine Existenz in einer Deduplizierungsdatenbank hinterlegt und nicht erneut gespeichert. Bei der Wiederherstellung oder bei der Migration der Daten von Disk nach Tape wird jede Datei dann wieder aus den gespeicherten Einzelstücken zusammengesetzt.

Die Deduplizierung ist ein Prozess, der Zeit kostet. Je umfangreicher die Signaturprüfung angelegt ist und je mehr Objekte verglichen werden, umso länger dauert das Signieren und der Redundanzvergleich mit den anderen Segmenten. Der Aufwand ist nötig, weil es bei jedem heute genutzten Verfahren immer eine – wenn auch sehr geringe – mathematische Wahrscheinlichkeit gibt, dass zwei gleiche Signaturen nicht den gleichen Objektinhalt widerspiegeln. Außerdem muss das Deduplizierungssystem die Sicherheit der einzigartigen Fragmentstücke garantieren. Denn sollte ein Basis-Fragment verloren gehen, dann sind viele Dateien betroffen und unwiederbringlich verloren.

Die Version 6.1 des Tivoli Storage Managers bietet Deduplizierung auf Basis der TSM-Disk-Storagepools. Ein TSM-Diskpool ist der Speicherort für alle möglichen Daten, die über Backup- oder Archivierungsprozesse in die Verwaltung des TSM-Servers geschrieben werden. Das Verfahren arbeitet ohne Beeinträchtigung der Backup-Performance als nachgelagerter Prozess. Die Grafik zeigt die Prozessschritte Segmentieren der Datenobjekte und Erzeugen der Signatur, Vergleich der Signaturen sowie schließlich das Eliminieren von redundanten Segmenten. Der TSM verwendet unter anderem ein auf SHA-1 basierendes Signaturverfahren (160-Bit-Schlüssel) und Zusatzverfahren zum eindeutigen Vergleich der Segmente und zur Reorganisation beim Restore.

Effizienzfaktor „Deduplication-Ratio“

Deduplizierung ist derzeit ein Modethema, mit dem vor allem Hersteller von diskbasierenden Speicherlösungen (etwa Virtual Tape Libraries, VTLs) intensiv werben. Diese Verfahren sind generell immer dann wirksam, wenn man genügend Datensegmente hat, deren Summe man vergleichen kann und wenn die Daten in ihrer Struktur viele redundante Teile aufweisen.

weiter mit: Faktoren, die die Effizienz beeinflussen

Es gibt eine Reihe von Einflussfaktoren, die die Effizienz von Deduplizierung bei der Datensicherung und Datenspeicherung beeinflussen, wie beispielsweise die Sicherungsmethode, die Änderungsrate, die Aufbewahrungszeit, die Anzahl der Quellen und vorgeschaltete Kompressionsverfahren.

In den Fällen, in denen der Sicherungs-Klient selbst komprimiert wird oder nach Datenbankreorganisationen wird es kaum Kandidaten für die Deduplizierung geben. Und auch bei verschlüsselten Daten ist sie nicht effizient.

Im Tivoli Storage Manager V6.1 ist die Verwendung von Deduplizierung eingebunden in die bekannte Regelstruktur und somit wählbar für geeignete Daten. Da die Redundanzuntersuchung auf Datensegmenten basiert, können dabei auch Duplikate gefunden werden, die unter unterschiedlichen Datei- oder Objektnamen existieren.

Für eine moderne Datensicherungsanwendung wie Tivoli Storage Manager ist die Bereitstellung von Deduplizierungsoptionen eine notwendige Ergänzung vor allem für die Arbeitsumgebungen, in denen die Sicherungsdaten aus Zugriffsgründen längere Zeit auf Plattenspeichern verfügbar bleiben, bevor sie dann zur preiswerten Langzeitspeicherung auf Magnetband geschrieben werden.

(ID:2018682)