Deduplication reduziert Daten auf das Wesentliche

Baukastenprinzip verschlankt und beschleunigt das Backup Deduplication reduziert Daten auf das Wesentliche

14.10.2007Autor / Redakteur: Walter Graf / Nico Litzel

Eine neue Technik macht von sich reden: Data-Deduplication. Zahlreiche Anbieter versuchen im Moment mit einer Vielzahl von unterschiedlichen Lösungen IT-Betreibern zu helfen, ihr Datenvolumen drastisch zu reduzieren. In welchem Umfeld und unter welchen Bedingungen kann man Data-Deduplication heute schon einsetzen? Wie stark lassen sich Archive tatsächlich reduzieren? Dieser Artikel soll dazu beitragen, das Potenzial – aber auch die Probleme – der neuen Technik zu erkennen.

Anbieter zum Thema

DataCore Software GmbH

FAST LTA GmbH

Impossible Cloud GmbH

Fujitsu Technology Solutions GmbH

Wohin mit der Datenflut? Eigentlich haben wir uns schon an die Tatsache gewöhnt, dass jeder Innovationsschub bei den Speichermedien sofort wieder durch einen steigenden Bedarf an Kapazität eingeholt wird. Bislang schien hier ein Kräftegleichgewicht zu herrschen.

Einem kürzlich veröffentlichten IDC-Whitepaper (The Expanding Universe: A Forecast of Worldwide Information Growth Through 2010) zufolge wird aber dieses Jahr zum ersten Mal in der IT-Geschichte die Menge der erzeugten Daten die von der Industrie bereitgestellte Speicherkapazität übertreffen.

Kurzfristig hat das wohl keine dramatischen Auswirkungen, da nicht alle erzeugten Daten langfristig gespeichert werden müssen. Der Gedanke liegt aber nahe, dass Unternehmen möglicherweise in der Zukunft nicht mehr in der Lage sein werden, alle Daten, die sie speichern wollen und müssen, auch langfristig speichern zu können.

Aber auch ohne dieses Szenario stellt die stetig wachsende Datenmenge ein Problem dar. So müssen IT-Verantwortliche einen signifikanten Kostenanteil nur für die Speicherung und Verwaltung ihrer Daten ausgeben, anstatt Gelder in strategisch wichtige Innovationsfelder zu investieren. Denn ein Datensicherungskonzept umfasst nicht nur die einmalige Sicherung des augenblicklichen Stands der Onlinesysteme, auf dem die Primärdaten gespeichert sind, sondern vor allem eine möglichst lückenlose Sicherung aller Daten, die in den letzten Monaten oder Jahren erzeugt oder verändert wurden. Kein Wunder also, dass nach neuen Techniken gesucht wird, um diesen Anforderungen weiter zu entsprechen.

Was ist Data-Deduplication eigentlich?

Der Grundgedanke ist vergleichsweise einfach: Man analysiert einen gegebenen Datenbestand und speichert mehrfach vorhandene Informationen nur einmal ab. Zusammen mit einem Plan zur Rekonstruktion der Originaldaten entsteht so ein Archiv, das nur noch aus stark reduzierten, aber dennoch vollständigen Informationen besteht.

Zu vergleichen ist das Ganze mit einem Legohaus, in dem man die verwendeten Grundbausteine identifiziert und dann von jedem Typ nur jeweils einen Stein in das Archiv legt. Zusätzlich zeichnet man den Bauplan des Hauses auf und legt diesen ebenfalls ins Archiv. Software-Hersteller wenden diese Strategie bereits heute auf Datei-Ebene im E-Mail-Umfeld an, in dem die Daten nur einmal gespeichert werden. Der Data-Deduplication-Ansatz geht jedoch einen Schritt weiter und identifiziert identische Bereiche innerhalb der Dateien. Während bei einer inkrementellen Sicherung eine nur geringfügig geänderte Datei komplett gesichert wird, werden im Falle einer Deduplizierung nur die geänderten Bereiche innerhalb der Datei gespeichert.

Produktiv wird die Deduplizierungstechnik vor allem bei Backup-Anwendungen sowie in einer Virtual Tape Library (VTL). Beide Szenarien haben den Vorteil, dass sie das gesamte Backup-Archiv optimieren und nicht nur die Ausgangsdaten auf der Festplatte.

Deduplizierung in der Backup-Software löst das Problem an der Quelle

Durch die Integration der Deduplizierungstechnik in die Backup-Software gewinnt man neben der Reduktion des Backup-Volumens weitere Vorteile. Viele Backup-Clients sind heute nur über langsame oder stark ausgelastete Netzwerkverbindungen erreichbar. Die Datenreduktion an der Quelle macht auch solche Verbindungen nutzbar. Damit wird es möglich, eine vorher dezentrale Backup-Lösung in ein zentrales Backup-Konzept zu integrieren und zu günstigeren Kosten zu betreiben.

Auch die Art und Weise, wie Backups durchgeführt werden, ändert sich für den Betreiber: Aus logischer Sicht finden jetzt nur noch Vollsicherungen statt, obwohl tatsächlich nur die Datenbereiche gesichert werden, die sich noch nicht im Backup-Archiv befinden. Beim Restore zahlt sich dieses Vorgehen aus, da ein Sicherungsstand nicht mehr aus verschiedenen Voll- und Inkrement-Sicherungen hergestellt werden muss.

Die pragmatische Alternative: Deduplizierung in einer VTL

Viele IT-Betreiber scheuen jedoch den Aufwand der Umstellung ihrer Backup-Anwendung und die damit verbundenen Prozesse. Außerdem kann keine Backup-Software mit Deduplizierungstechnik heute schon für alle typischen Backup-Szenarien einen performanten Betrieb garantieren

Hier bietet sich eine VTL-basierende Lösung als pragmatische Alternative an: Backup-Anwendung und -Prozesse bleiben unverändert bestehen. Die Deduplizierung wird unsichtbar für den IT-Betrieb in die „Blackbox“ VTL gekapselt. Die Deduplizierungstechnik lässt sich so schnell und unkompliziert einsetzen, und man erreicht mit der Reduktion des Datenvolumens ein wesentliches Ziel. Daneben ergeben sich weitere Vorteile, beispielsweise lassen sich Archive einfacher über größere Entfernungen replizieren und sind so für den Katastrophenfall besser gerüstet.

Data-Deduplication: Anspruch und Realität

Deduplizierung als Technik wird kurzfristig wohl am ehesten in einer VTL Verbreitung finden. Einige Hersteller bieten aber heute schon interessante Backupanwendungen mit Deduplizierungstechnik an und konzentrieren sich dabei auf die Integration von sogenannten ROBO-Umgebungen (Remote Office / Back Office) in ein zentrales Backup-Konzept und ermöglichen so die bereits erwähnten Vorteile der Konsolidierung einer Backup-Landschaft. Allerdings muss die Technik noch einige Hürden nehmen, sodass ihr hohes Potenzial auch für den Einsatz im anspruchsvollen Rechenzentrumsbetrieb genutzt werden kann.

So liegt in einem deduplizierten Archiv jede Datei in ihre Grundbausteine zerlegt vor. In einem Tape-basierenden Archiv müsste diese Datei mit hoher Wahrscheinlichkeit von verschiedenen Bereichen eines Bandes oder gar von mehreren Bändern gelesen werden. Damit scheidet dieses Medium für Deduplication momentan aus.

Um die reduzierten Daten in einer vernünftigen Geschwindigkeit wiederherstellen zu können, müssen diese also auf Festplatte liegen. Damit stellt sich die Frage, ob ein Backup-Archiv mit unreduzierten Daten, dafür aber auf dem preiswerten Medium Tape, nicht wirtschaftlicher ist als ein reduziertes Backuparchiv auf dem teureren Medium Magnetplatte.

Die Antwort hängt von dem zu erwartenden Reduktionsfaktor ab. Dass sich dieser in den meisten Fällen in ungefähr der gleichen Größenordnung bewegen wird, wie die Kosteneinsparung von Tape gegenüber Festplatte, macht die Sache nicht einfacher. Allerdings lässt sich der Reduktionsfaktor ohne genaue Kenntnis der Datenbasis sowie der zu erwartenden Entwicklung nicht genau abschätzen. Versteht man jedoch die wichtigsten Einflussgrößen, so gewinnt man zumindest eine Vorstellung davon, wie hoch die Datenreduktion im konkreten Fall sein wird (siehe Abbildung „Vier Faktoren bestimmen den Reduktionsfaktor“).

Momentan versuchen viele Hersteller, sich gegenseitig durch immer höhere Faktoren auszustechen. Die Zahlen sind allerdings oft nicht vergleichbar und man tut gut daran, das „Kleingedruckte“ zu lesen. In einem fairen Vergleich der Techniken sollte man die tatsächlichen Archivgrößen im Falle einer Lösung mit und ohne Deduplizierung betrachten.

Reduktionsfaktoren größer als 100 beziehen sich mit Sicherheit nicht auf einen solchen Vergleich. Auch die Tatsache, dass man über bewährte Komprimierungsalgorithmen bereits eine Datenreduktion bis zum Faktor 3 erreichen kann, wird gerne übersehen. So wird oft im direkten Vergleich aus einem Reduktionsfaktor 20 schnell ein Wert kleiner 10, und auch dieser wird meist nur bei einer entsprechend langen Aufbewahrungszeit der Daten tatsächlich erreicht.

Faktor Geschwindigkeit

Ein weiterer Faktor, den man für einen praktischen Einsatz unbedingt betrachten sollte, ist die Geschwindigkeit, mit der Daten dedupliziert werden können. Es nutzt dem IT-Betreiber im Zweifel wenig, wenn er auf Bandbreiten im GByte/s-Bereich angewiesen ist, Daten aber nur im 100-MByte/s-Bereich deduplizieren kann.

Um überhaupt akzeptable Durchsatzwerte mit Deduplizierung erreichen zu können, müssen sich Referenzen zu den bereits archivierten Blöcken im Hauptspeicher des Deduplizierungs-Servers befinden. Passen diese Referenzinformationen nicht mehr in den Hauptspeicher, bricht der Durchsatz dramatisch ein. Folglich resultiert aus dieser Randbedingung auch die maximal adressierbare Archivgröße auf der Festplatte. Viele Algorithmen können mit den heute verfügbaren Hauptspeichergrößen nur einige Terabyte an Archivgröße unterstützen.

Für einen IT-Betreiber ergeben sich mit dem maximal erreichbaren Durchsatz und der maximal unterstützten Archivgröße zwei wichtige Kriterien, die dabei helfen zu entscheiden, ob eine Deduplizierungslösung für den täglichen Einsatz geeignet ist.

Spannungsfeld Datenintegrität

Ein besonders sensibler Aspekt bei der Bewertung ist außerdem das Thema Datenintegrität. Hier hat der Verlust oder die Verfälschung eines Datenblocks eine viel größere Auswirkung als in einem normalen Archivumfeld. Zum einen muss damit gerechnet werden, dass ein verlorener oder verfälschter Block zu mehr als einer Datei gehört und zum anderen besteht hier im Gegensatz zu traditionellen Backuplösungen nicht die Möglichkeit, auf eine ältere Kopie der gleichen Datei zuzugreifen. Müssen Daten besonders hohen Sicherheitsanforderungen genügen, so kann ein datenreduziertes Backup-Archiv unter Umständen Probleme verursachen.

Dennoch birgt Data-Deduplication, ob in einer ROBO-Backup-Anwendung oder in einer VTL implementiert, ein enormes Potenzial. In vielen Fällen erreicht man eine signifikante Reduktion der Datenarchive. Damit verbunden sind vereinfachte Administrationsprozesse. Bislang netzwerkmäßig schwach angebundene Dateninseln können in ein zentrales Sicherungskonzept eingebunden werden, mit allen positiven Auswirkungen auf die Qualität der Datenhaltung, Effektivität der Prozesse und Reduzierung der Betriebskosten. Durch das schlankere Datenvolumen wird zudem Datenreplikation über größere Entfernung einfacher und der IT-Betrieb katastrophentoleranter.

Auf dem Weg zu einer Data-Deduplication-Lösung

Ein IT-Betreiber müsste zunächst klären, ob für ihn Deduplizierung in einer Backup-Anwendung oder in einer VTL als Lösung in Frage kommt. Weiter sollte möglichst genau der konkrete Reduktionsfaktor für die Daten als Basis für eine Wirtschaftlichkeitsbetrachtung bestimmt werden. Ebenso gilt es sicherzustellen, dass die angebotene IT-Lösung mit Data-Deduplication in Sachen Performance und unterstützter Kapazität den Anforderungen des täglichen Betriebs genügt.

Eine weitere Frage ist, ob die angebotenen Mechanismen zum Schutz der Datenintegrität für die zu speichernden Daten ausreichend sind. Und last but not least bietet es sich an, einen Vergleich der direkten, objektiv messbaren Kostentreiber zwischen zwei Lösungsalternativen auf Basis von Tape mit Komprimierung und Festplatte mit Deduplizierung durchzuführen.

Oft wird es allerdings schwierig, alle Punkte hinreichend sicher für den eigenen IT-Betrieb zu beantworten. Hier sind dann Lösungen gefragt, die einen „weichen“ Einstieg in das Thema Deduplizierung erlauben. Eine VTL oder eine Backup-Anwendung beispielsweise, die ihren Betreiber nicht dazu zwingt, sich vom Medium Tape zu verabschieden, ist im Zweifel die sinnvollere Alternative.

Fujitsu Siemens Computers verfolgt mit der Virtual Tape Appliance Centricstor den Ansatz, reale Bänder vollwertig und automatisiert in den Backup- und Archivierungsprozess zu integrieren. Mit der in Kürze verfügbaren Unterstützung von Deduplication wird Centricstor auch weiterhin eine sinnvolle Koexistenz von Festplatte und Tape sicherstellen und Anwender können die Vorteile beider in Anspruch nehmen.

Walter Graf ist Principal Consultant für Data Protection Solutions bei Fujitsu Siemens Computers.

Artikelfiles und Artikellinks

Link: Fachartikel: Bauplan für die Einmaligkeit

Link: Fachartikel: Unikate sind billiger

Link: Artikel über Deduplizierung auf Wikipedia.de

(ID:2008323)