Eine gute Backup-Strategie lässt Deduplizierung alt aussehen

Anbieter zum Thema

IBM Deutschland GmbH Geschäftsbereich Lotus

Welche Deduplizierungsverfahren gibt es?

Die heute verfügbaren Deduplizierungsverfahren sind vielfältig. Es gibt Lösungen für die Redundanzerkennung auf der Quell-Seite (source/client deduplication) und auf der Backend-Seite (target/server deduplication) und mittlerweile sogar schon Mischformen. Beide Verfahren haben Vor- und Nachteile:

source/client deduplication

Vorteile: bessere Nutzung von Netzwerkbandbreite durch reduzierten Datenstrom; Möglichkeit der Einbeziehung von Informationen über lokale Datenformate in die Analyse

Nachteile: Backup und Restore brauchen zusätzliche CPU-Zyklen; die Menge der zu analysierenden Daten ist limitiert auf die Menge, die der Client sieht; die Manipulation der Sicherungsdaten vor dem Backup unterläuft das Prinzip von Backup (zusätzliche Fehlerquelle).

target/server deduplication

Vorteil: große Menge an vergleichbaren Daten

Nachteil: Einfluss auf die Gesamtperformance der Datensicherung („inband“ Verfahren); Speicherreduzierung erst nach erfolgter asynchroner Deduplizierung („outband“ Verfahren)

Aufwendige Deduplizierung ist nötig

Die Deduplizierung ist ein Prozess, der Zeit kostet. Je umfangreicher die Signaturprüfung angelegt ist und je mehr Objekte verglichen werden, umso länger dauert das Signieren und der Redundanzvergleich mit den anderen Segmenten.

Der Aufwand ist nötig, weil es bei jedem heute genutzten Verfahren immer eine - wenn auch sehr geringe - mathematische Wahrscheinlichkeit gibt, dass zwei gleiche Signaturen nicht den gleichen Objektinhalt widerspiegeln. Außerdem muss das Deduplizierungssystem die Existenz jedes einzigartigen Fragmentstücks garantieren. Denn sollte ein Basis-Fragment verloren gehen, dann sind viele Dateien betroffen und unwiederbringlich verloren.

Wenn die Dedup-Ratio patzt

Die Erwartungshaltung vieler IT-Verantwortlicher ist hoch, was die Deduplizierung in ihrem speziellen Umfeld an Platzersparnis bringen wird. Es ist verbreitet, aber wenig seriös, Reduktionsfaktoren (dedup ratio’s) pauschal zu publizieren, weil die Erfolgsrate von einer Vielzahl Faktoren abhängt. Starken Einfluss haben dabei die verwendete Sicherungsmethode und die vorliegende kundenspezifische Datenstruktur.

Schreibt die Datensicherungsanwendung von sich aus nur Daten, die neu oder geändert sind (incremental forever), dann wird der nötige Speicherbedarf sofort reduziert. Anders ist es bei Datensicherungsverfahren, die in ihrer Methodik häufige redundante Datensicherungen nötig machen (full, differential, incremental). Im Datenbereich gibt es potentiell gute Kandidaten für die Deduplizierung und weniger gute. Bestimmte Daten lassen sich überhaupt nicht deduplizieren.

Zu den guten Kandidaten gehören alle Filesystem-Daten, deren interne Formate sich nicht bei jedem Speichern ändern. Datenbanken und E-Mail-Anwendungen werden weniger Redundanzpotential bieten, weil die internen Optimierungsverfahren und regelmäßigen Reorganisationen die Kandidatensuche unterlaufen.

Alle Daten, die vor der Deduplizierung schon komprimiert oder verschlüsselt wurden, eignen sich für die Deduplizierung kaum oder überhaupt nicht.

weiter mit: IBM Tivoli mit kostenloser Dedup-Option

(ID:2021207)

Zufriedenstellende Deduplizierungsraten bei der Datensicherung beanspruchen viele Ressourcen

Eine gute Backup-Strategie lässt Deduplizierung alt aussehen

Welche Deduplizierungsverfahren gibt es?

Aufwendige Deduplizierung ist nötig

Wenn die Dedup-Ratio patzt