Signierte Chunks für höchste Datenintegrität

Deduplizierung hält Einzug in den Tivoli Storage Manager

Seite: 2/2

Firmen zum Thema

Findet das Verfahren nun ein zweites Segment mit gleicher Signatur, wird das Segment als redundant markiert, der Verweis auf seine Existenz in einer Deduplizierungsdatenbank hinterlegt und nicht erneut gespeichert. Bei der Wiederherstellung oder bei der Migration der Daten von Disk nach Tape wird jede Datei dann wieder aus den gespeicherten Einzelstücken zusammengesetzt.

Die Deduplizierung ist ein Prozess, der Zeit kostet. Je umfangreicher die Signaturprüfung angelegt ist und je mehr Objekte verglichen werden, umso länger dauert das Signieren und der Redundanzvergleich mit den anderen Segmenten. Der Aufwand ist nötig, weil es bei jedem heute genutzten Verfahren immer eine – wenn auch sehr geringe – mathematische Wahrscheinlichkeit gibt, dass zwei gleiche Signaturen nicht den gleichen Objektinhalt widerspiegeln. Außerdem muss das Deduplizierungssystem die Sicherheit der einzigartigen Fragmentstücke garantieren. Denn sollte ein Basis-Fragment verloren gehen, dann sind viele Dateien betroffen und unwiederbringlich verloren.

Die Version 6.1 des Tivoli Storage Managers bietet Deduplizierung auf Basis der TSM-Disk-Storagepools. Ein TSM-Diskpool ist der Speicherort für alle möglichen Daten, die über Backup- oder Archivierungsprozesse in die Verwaltung des TSM-Servers geschrieben werden. Das Verfahren arbeitet ohne Beeinträchtigung der Backup-Performance als nachgelagerter Prozess. Die Grafik zeigt die Prozessschritte Segmentieren der Datenobjekte und Erzeugen der Signatur, Vergleich der Signaturen sowie schließlich das Eliminieren von redundanten Segmenten. Der TSM verwendet unter anderem ein auf SHA-1 basierendes Signaturverfahren (160-Bit-Schlüssel) und Zusatzverfahren zum eindeutigen Vergleich der Segmente und zur Reorganisation beim Restore.

Effizienzfaktor „Deduplication-Ratio“

Deduplizierung ist derzeit ein Modethema, mit dem vor allem Hersteller von diskbasierenden Speicherlösungen (etwa Virtual Tape Libraries, VTLs) intensiv werben. Diese Verfahren sind generell immer dann wirksam, wenn man genügend Datensegmente hat, deren Summe man vergleichen kann und wenn die Daten in ihrer Struktur viele redundante Teile aufweisen.

weiter mit: Faktoren, die die Effizienz beeinflussen

(ID:2018682)