Willkommen im Special Deduplizierung

Special Deduplizierung von Storage-Insider.deLiebe Leser,

herzlich willkommen zum Special Deduplizierung von Storage-Insider.de.
In unserem Special haben wir zum einen die Grundlagen zusammengetragen, zum anderen zeigen wir an zahlreichen Produktbeispielen welche Bedeutung diese Technik hat respektive bekommen wird. Unser Lexikon der Deduplizierungstechnik erläutert die wichtigen Begriffe, so dass sie sich schneller in die neuartige Technik einarbeiten können.

Und in zwei Webcasts erläutern Peter Wüst von NetApp und Kevin Platz von Data Domain, wo sich die Kompressionstechnik Kosten und Kapazität sparend einsetzen lässt.

Ihr Rainer Graefen
Chefredakteur Storage-Insider.de

 

Storage-Insider-Special Deduplizierung


Glossar der wichtigsten Begriffe

Die gesamte IT-Landschaft ist geprägt von kryptischen Abkürzungen und künstlichen Begriffen wie kaum ein anderer Technologiebereich. Um Ihnen speziell im Umfeld von Deduplizierung den Umgang mit den Fachtermini zu erleichtern, haben wir an dieser Stelle die wichtigsten Begriffe und Bezeichnungen zusammengestellt und ausführlich erläutert.



Barcode, virtueller

Einige Virtual Tape Libraries bieten die Möglichkeit, Daten im nativen Bandformat auf virtuellen Medien zu sichern. Dabei erhält jedes virtuelle Medium einen eigenen, virtuellen Barcode, analog zu den „echten“ Barcodes physischer Medien. Dadurch lassen sich virtuelle Bandmedien direkt im nativen Bandformat auf physische Bänder exportieren. Backup-Software kann die Daten so später direkt vom Band wiederherstellen.


Bit Compare

Auch binärer Vergleich. Bei dieser Funktion werden zwei Datenblöcke auf ihre Identität nach Position und Wert verglichen.
Ein Bit Compare ist in Deduplizierungssystemen spätestens dann erforderlich, wenn eine Hash-Kollision erfolgt ist, also zwei nicht identische Eingaben denselben Hash-Wert erzeugen. Hersteller wie NetApp oder Sepaton verlassen sich bei ihrer Deduplizierungstechnik nicht auf den eindeutigen Prüfwert, den ein Hash darstellen sollte. In der Industrie deutet sich ein Streit zweier Lager an, in dem es um die Notwendigkeit eines Bit Compare geht. Während das eine Lager jeden anscheinend identischen Datenblock nachträglich vergleicht, stellt sich das andere Lager auf den Standpunkt der Kollisionsfreiheit der benutzten Hash-Algorithmen.


Blocklevel, Blockebene

Daten werden in Form von Blöcken auf eine formatierte Festplatte geschrieben. Größere Einheiten von Blöcken werden als Cluster bezeichnet und bestehen aus acht, sechzehn, zweiunddreißig usw. Blöcken. Ein Block selbst beinhaltet 512 Byte. Die Deduplizierung kann, muss aber nicht auf dieser Blockgröße erfolgen (siehe Chunking). Da identische Blöcke nicht nur innerhalb einer Datei auftreten können, sondern potenziell in unterschiedlichsten Informationen gefunden werden, sind hohe Kompressionsraten möglich.

Change Rate, Änderungsrate

Der Unterschied zweier aufeinander folgender Datensicherungen liegt gewöhnlich im unteren einstelligen Prozentbereich. Bei einer Gesamtdatenmenge von beispielsweise 10 Gigabyte unterscheiden sich mithin 100 bis 200 Megabyte. Diese Änderungsrate hat erheblichen Einfluss auf die Kompressions- und damit auch die Deduplizierungsrate, da im schlechtesten Fall alle Datenblöcke neue Originale sein können.
Zwei Beispiele:

  • Ist die Änderungsrate gleich Null und ließen sich die Daten um den Faktor 5 komprimieren, wären vier Datensicherungen notwendig, um eine Deduplizierungsrate von 20 : 1 zu erreichen.

  • Würden sich 10 Prozent der Gesamtdaten verändern und ließen sich die Daten um Faktor 2 komprimieren, wären 1.825 Datensicherungen notwendig, um eine Deduplizierungsrate von 20 : 1 zu erreichen.



Chunking

Vorgang, bei dem ein Datenstrom in Datenblöcke zerlegt wird. Ziel ist es, möglichst viele identische Bausteine (Chunks) herauszufiltern und mittels Referenzierung einen kompakteren „Bauplan“ zu erzeugen, anhand dessen der ursprüngliche Datenstrom wieder hergestellt werden kann.

Deduplizierung vs. Komprimierung beim Backup

Datendeduplizierung, wie auch Komprimierung, verdichtet Daten. Bei der Komprimierung wird innerhalb einer bestimmten Datenmenge nach Mustern gesucht, die häufig auftreten und sich einfacher ausdrücken lassen – z. B. Binärmuster mit 00000000 oder 11111111 hintereinander, die sich durch 000 bzw. 111 ersetzen lassen. Die durchschnittliche Kompressionsrate eines Datenstroms beim klassischen Backup ist allerdings auf optimistische Werte zwischen 2:1 bis 3:1 begrenzt.
Bei der Deduplizierung wird dagegen die aktuelle Vollsicherung des Datenbestands von heute mit der vom letzten Mal verglichen. Da die Änderungsrate häufig nur zwischen zwei bis zehn Prozent liegt, sind beide Datenmengen prinzipbedingt schon sehr ähnlich. Mit zunehmender Anzahl von Datensicherungen nimmt die Ähnlichkeit auf Blockebene weiter zu, sodass sich durchschnittliche Kompressionsraten von Faktor neun bis zwanzig erreichen lassen.

Deduplizierungsrate

Die Deduplizierungsrate ist das Verhältnis der addierten Datenmengen aller Sicherungen zur verbleibenden, komprimierten Datenmenge. 

Filelevel, Dateiebene, Single Instance Storage (SIS)

Deduplizierung lässt sich auch auf Dateiebene durchführen. Das heißt, identische Dateien werden nur einmal gespeichert. Beim Versuch, eine schon vorhandene Datei auf einem Speichersystem noch mal zu speichern, wird ein Zeiger erzeugt, der auf die Originaldatei verweist. Dieses Prinzip wird gerne bei der E-Mail-Archivierung eingesetzt, da in einer Firma durch E-Mail-Verteiler ansonsten sehr viele identische Dateien erzeugt werden, die auf dem E-Mail-Server viel Speicherplatz unnütz belegen.

Fingerprinting

Siehe Hash

Forward-Referencing

Forward-Referencing legt immer den zuletzt aufgetretenen, gemeinsamen Datenblock ab und referenziert die vorher aufgetretenen Elemente. Zurzeit ist noch unklar, ob die Art der Referenzierung (Forward oder Reverse) einen Einfluss auf die Wiederherstellungsgeschwindigkeit der diversen Backup-Generationen hat. Es könnte sein, dass Systeme, die Forward-Referencing nutzen, bei der Wiederherstellung der jeweils letzten Dateiversion Vorteile haben, während sich Systeme mit Reverse-Referencing leichter tun, ältere Versionen wiederherzustellen.

Hash

Eine Hash-Funktion soll einen Text beliebiger Länge durch einen kurze, möglichst eindeutige Identifikation fester Länge beschreiben, schreibt Wikipedia. Amerikanische Spezialisten sagen zum Hash anschaulicher Fingerprinting. So wie ein Mensch über seinen Fingerabdruck identifizierbar ist, so ist ein Text über den Hash-Wert auffindbar. Da Hash-Algorithmen wie MD5, MD5+ und SHA-1 mit Längen von 128 bis 160 Bit arbeiten, lassen sich identische Datenblöcke (Chunks) mit geringerem Aufwand erkennen und verarbeiten, als wenn man diese direkt miteinander vergleichen würde. Ein idealer Hash-Algorithmus weist keine Hash-Kollisionen auf, sodass zwei unterschiedliche Datenmengen nie zum selben Hash-Wert führen können. Theoretisch ist dieser Fall möglich, aber unwahrscheinlich, beruhigen die Experten gerne und argumentieren damit, dass die Wahrscheinlichkeit für einen Fehler der Festplattenmagnetisierung wesentlich höher ist.

Index

Wird eine Datei, die zuvor zerlegt wurde, wieder gebraucht, so nimmt man sowohl ihre einzigartigen Bestandteile, die Chunks, als auch die Elemente, die sie mit anderen Dateien gemein hat und nur einmal abgelegt wurden, um sie zu rekonstruieren. Der Index sagt, welche Teile das sind und wie sie mit den einzigartigen Teilen zusammengefügt werden müssen, um wieder die Ursprungsdatei zu ergeben. Man kann sich das wie einen Baukasten vorstellen, in dem es runde, eckige und dreieckige Klötze gibt. Aus den Klötzen entstehen Lokomotiven, Brücken und Häuser. Die Bestandteile sind gleich, nur jeweils anders angeordnet. Der Index, um im Bild zu bleiben, entspricht einer Bauanleitung.

Inband-Methode, Inline oder auch Pre-Processing

Zu deduplizierende Daten werden schon während des Kopiervorgangs in Chunks zerlegt, auf Duplikate untersucht und dann auf Festplatte abgelegt. Data Domain gilt als Erfinder und Protagonist dieser Methode. Als Vorteil der Inband-Methode gilt, dass die Daten nur einmal angefasst werden müssen. Zur Umsetzung sind eine hohe Rechenleistung und Bandbreite erforderlich.

Incremental forever

Vor allem bei der Datensicherung (Backup) sieht jedermann sofort, dass die tägliche Vollsicherung zu einem Aufblähen des gesamten Datenbestandes führt. Selbst wenn man nach einer Woche den Bandmediensatz erneut benutzt, hat sich die Datenmenge verfünffacht. Angesicht wachsender Datenmengen lässt sich diese einfache Strategie nicht durchhalten, da Kosten, Verschleiß, Zeitaufwand wie auch die Belastung des produktiven Netzes in unannehmbare Größenordnungen wachsen. IBM hat deshalb schon bei der ADSM-Backup-Software eine Datensicherungsstrategie eingeführt, die einmal eine Vollsicherung des gesamten Datenbestandes durchführte und dann nur noch die täglichen Änderungen (incremental forever) auf das Band durchführt.

Outband-Methode, Post-Processing

Beim Outband-Verfahren, im Gegensatz zum Inband-Verfahren, werden die Daten erst analysiert, nachdem sie übertragen und abgespeichert wurde. Der wesentliche Unterschied beim Post- zum Inline-Processing liegt darin, dass auf die Hash-Bildung verzichtet wird, da die Verzögerungen durch den nachträglichen binären Vergleich von potentiellen Duplikaten hier keine Rolle mehr spielen.

Referenzierung (Pointer), Zeiger

Bei der Deduplizierung wird eine Tabelle erzeugt, die das Original enthält und Zeiger, die den Ort im Datenstrom referenzieren, wo bei der Wiederherstellung der Daten eine Kopie dieses Original-Datenblocks einzufügen ist.

Reverse-Referencing

Beim Reverse-Referencing wird das erste gemeinsame Element gespeichert, alle weiteren identischen erhalten einen Verweis auf das erste. Zurzeit ist noch unklar, ob die Art der Referenzierung (Forward oder Reverse) einen Einfluss auf die Wiederherstellungsgeschwindigkeit der diversen Backup-Generationen hat. Es könnte sein, dass Systeme, die Forward-Referencing nutzen, bei der Wiederherstellung der jeweils letzten Dateiversion Vorteile haben, während sich Systeme mit Reverse-Referencing leichter tun, ältere Versionen wiederherzustellen.

Return on Invest (ROI) durch Deduplizierung

Die Einsparungen beim Einsatz einer Deduplizierungstechnik sind offensichtlich. Da die Hersteller allerdings nur vage Angaben über den Reduktionsfaktor machen können, steht der ROI zwar nicht auf schwankenden, aber nichtsdestotrotz variablen Füßen. Wurde bei Einführung der Technik mit Kompressionraten von 20 : 1 geworben, so zeigen sich manche Anwender von ihren realen Werten, die bei 9 : 1 liegen, enttäuscht, andere Anwender sind geradezu euphorisch, da sich bei ihnen nach einer gewissen Zeit eine Datenreduktion von 40 : 1 einstellte. Neben der mehr oder weniger großen Speicherplatzersparnis können eventuell bei der Berechnung des ROI die indirekten Einsparungen bei Kühlung, Strom und Raumbedarf oder reduzierbarer WAN-Bandbreite für das Backup von Zweigstellen mit einbezogen werden.
Den Einsparungen entgegen stehen die Kosten für die meist in Form einer Appliance erhältliche Deduplizierungstechnik. Noch ist hier mit 5- bis 6-stelligen Summen zu kalkulieren. Ebenfalls schwer einzuschätzen sind auf dieser Seite der Bilanz, die Kosten für die Rechenarbeit. Während im Mainframe-Umfeld jeder benutzte CPU-Zyklus viel Geld kostet, ist das im Open-Systems-Umfeld bislang eine frei verfügbare Ressource. Nicht vergessen werden sollte allerdings, dass man bei Einsatz der Dedup-Technik wesentlich mehr Speicherreserven vorhalten sollte als gewohnt. Das Entpacken großer Datenmengen könnte sonst unliebsame Überraschungen verursachen.

Single Instance Storage (SIS)

Siehe Filelevel

Virtual Tape Library (VTL), virtuelle Bandbibliothek

Die Datensicherung kleinerer Unternehmen erfolgt immer häufiger auf Festplatten. Eine Variante dieser D2D-Kopie – oder Speicherung von Disk auf eine zweite Disk – emuliert Bandlaufwerke und komplette Bandroboter. Diese sogenannten Virtual Tape Libraries beschleunigen die Datensicherung, indem sie das Backup vieler Server einsammeln, auf Festplatte zwischenspeichern und zu einem späteren Zeitpunkt auch auf Bänder auslagern. Die Kombination von VTL und Deduplizierung ermöglicht es, zehn bis zwanzigmal mehr Daten auf einer Festplatte unterzubringen.