Atempo macht mit Software-basierter Deduplizierung die Daten kleiner Der Dedup-Algorithmus löst sich langsam von der Appliance

Autor / Redakteur: Martina König / Rainer Graefen

Die Deduplizierung setzt ihren Siegeszug fort: Gartner geht davon aus, dass die Technologie bis 2012 bei 75 Prozent aller Backups zum Einsatz kommen wird. Ihren Anfang hat Deduplizierung in speziellen Hardware-Appliances genommen. Doch diese Zeiten sind vorbei. Jetzt gräbt die Software- der Hardware-basierten Variante das Wasser ab.

Firma zum Thema

Die Dedup-Appliances von Quantum gibt es für jeden Speicherbedarf.
Die Dedup-Appliances von Quantum gibt es für jeden Speicherbedarf.
( Archiv: Vogel Business Media )

Die Möglichkeit, Backup-Software mit Deduplizierung als Zusatzoption auszustatten, ist im Hinblick auf die gesamte Entwicklung der Technologie relativ neu.

Bei der Software-basierten Deduplizierung werden doppelte Inhalte auf Datei- oder Blockebene bereits an der Quelle – also in erster Linie direkt auf dem Server – identifiziert und nur einfach gespeichert. Redundanzen werden eliminiert, indem doppelte Datenblöcke durch Links zum Originaldatenblock ersetzt werden.

Software-basierte Deduplizierung

Der große Vorteil der Software-basierten Deduplizierung ist, dass keine spezielle Hardware erforderlich ist. Die Backup-Software muss weder auf einem spezifischen Server ausgeführt werden, noch die Daten auf einem bestimmten Disk-Speichersystem abgelegt werden.

Das ist ideal für Unternehmen, deren Speicherstruktur im Laufe der Zeit gewachsen ist und die nicht in neue Hardware investieren wollen oder können. Auch für Unternehmen mit einer geringen Serverauslastung oder ungenutzter Hardware – wie es nach der Rezession vielerorts der Fall ist – ist dies interessant.

Die IT-Verantwortlichen können auf diese Weise weiterhin mit bekannten Strukturen arbeiten. Diese Variante ist also unter anderem eine gute Option für Unternehmen mit mehreren Standorten oder Niederlassungen, deren lokale Backups ohne spezielle Speicherhardware vor Ort in eine zentrale Datensicherungsstrategie integriert werden sollen.

Rechner sind zum Deduplizieren nicht zu schade

Da die Daten noch vor der Übertragung reduziert werden, ist wesentlich weniger Bandbreite im LAN- oder WAN-Netz notwendig. Aber Achtung: Deduplizierung verbraucht etliche Prozessorzyklen auf den zu sichernden Servern. Deshalb kann unter Umständen eine Umgestaltung des Backups notwendig sein.

Einer der Hersteller von Backup-Software mit expliziter Deduplizierungsstrategie ist Atempo. Das Unternehmen bietet Deduplizierung als Zusatzmodul für seine Backupsoftware Time Navigator, die über den Backup-Server administriert wird.

Der Ansatz basiert auf einer dreistufigen Architektur (Client, Server, Speicherhardware) und fügt eine vierte Stufe hinzu – den so genannten HyperStream Server. Vor der Datenübertragung an den HyperStream-Server identifiziert der Softwareagent welche Dateien oder Datenblöcke bereits auf dem Zielspeichersystem vorhanden sind und überträgt lediglich neue Datenblöcke.

Gleichzeitig werden die Metadaten für alle Daten an das Repository übertragen, dort Agespeichert und verwaltet. Zusätzlich kann der Agent die Daten vor dem Übertragen komprimieren. Existiert bereits die Kopie eines Datenblocks auf dem Speicher, wird lediglich die Referenz auf den neuesten Stand gebracht und dem Agenten mitgeteilt, dass er die Daten nicht erneut senden soll.

weiter mit: Die Quintessenz ist ein Konzentrat

Wissenschaftliche Daten können hochredundant sein

Gegner der Software-basierten Deduplizierung argumentieren, dass durch die Identifikation redundanter Datenblöcke eine zusätzliche Last auf die zu sichernden Server geladen wird. Das stimmt natürlich – Deduplizierung ist schließlich kein Zauberwerk!

Bemerkbar macht sich das Mehr an benötigter Leistung jedoch nur, wenn die Server ohnehin bereits an der Grenze ihrer Belastbarkeit operieren oder der Backuplauf während der Arbeitszeit durchgeführt wird.

Wird das Backup in Zeiten mit geringer Serverauslastung gelegt, kann das Potenzial der Technologie in der Regel ohne Leistungseinbußen ausgeschöpft werden. In diesem Fall können die Daten zusätzlich online komprimiert werden, um die Speicherauslastung weiter zu optimieren.

Diese Kombination aus Deduplizierung und Komprimierung kann zu beeindruckenden Ergebnissen führen. Das Biopharmazieunternehmen Transgene, das die Software-basierte Deduplizierungslösung von Atempo im Einsatz hat, berichtet von Deduplizierungraten von 20:1 bis hin zu 600:1(!).

Solch hohe Raten können jedoch nur zustande kommen, wenn sehr viele Redundanzen innerhalb der Daten auftreten. Bei Transgene basiert diese extrem hohe Rate auf dem Backup des OpenText-Servers mit 330 GByte Forschungsdaten.

Hardware-basierte Deduplizierung

Bei der Hardware-basierten Deduplizierung werden redundante Datenblöcke nicht an der Quelle, sondern erst am Ziel – das heißt dem Speicher – identifiziert und eliminiert. Der Pluspunkt Hardware-basierter Deduplizierungslösungen auf Target-Seite ist, dass sie einfach als zusätzliche Instanz als VTL oder NAS in die existierende Backup-Architektur integriert werden können.

Eine Umgestaltung der Backupstruktur ist meist nicht notwendig. Der tatsächliche Nutzen der Deduplizierung steht in direktem Zusammenhang damit, wie effizient sie gleiche Bitfolgen erkennen kann und wie hoch im Anschluss daran die die Indizierung skaliert werden kann – sprich, mit wie vielen Dateien die erkannten Bitfolgen verlinkt werden kann.

Nachbearbeitung

Das Auffinden und Indizieren redundanter Daten innerhalb der Backupdaten benötigt aber Ressourcen auf dem System, auf dem die Technologie durchgeführt wird. Die Hardware-basierte Variante der Technologie hat hier den großen Vorteil, dass Clients und Server durch den Deduplizierungsprozess nicht beeinträchtigt werden. Das Überlastungsrisiko der Server sinkt, da nur die Performance der Speicherhardware ausgeschöpft wird

Bei der Post-processing Deduplizierung werden die Daten zunächst ohne Deduplizierung mit Maximalgeschwindigkeit auf das Backup-Medium geschrieben und werden erst in einem zweiten Schritt auf Redundanzen hin analysiert.

Bei dieser Variante werden Verzögerungen beim Einlesen der Daten vermieden. Damit ist Post-processing Deduplizierung ideal für Anwender, denen eine möglichst hohe Backup-Performance wichtig ist. Andererseits muss zunächst Speicherplatz für das komplette Backup-Datenvolumen bereitgestellt werden, bevor es reduziert wird.

weiter mit: Methode Just in Time

Methode Just in Time

Bei der Inline-Deduplizierung hingegen wird der Datenstrom noch vor dem Speichern auf dem Backup-Medium bearbeitet. Das kostet allerdings Backup-Performance. Der Zeitverlust wird aber durch die geringeren Volumina kompensiert, die für das Disk-System notwendig sind.

Unter Umständen muss die Deduplizierung mit Systemen zum Bandbreitenmanagement kombiniert werden, um durchschlagende Resultate zu erzielen. Welche der beiden Methoden für die vorhandene Speicherumgebung geeignet ist, sollten Unternehmen vor dem Kauf sowohl mit langsameren Backups mit vielen unstrukturierten Dateien als auch mit schnelleren, Datenbank-basierenden Backups testen.

Anbieter wie Quantum – einer der Vorreiter der Deduplizierungstechnologie – verfolgen einen Hardware-basierten Deduplizierungsansatz mit Disk-Backupsystemen als Virtual Tape Library oder NAS-Share. Quantum bietet Anwendern außerdem die Möglichkeit, zwischen Inline- und Post-Processing Deduplizierung – oder auch nativer Dateneinspeisung ohne Deduplizierung – zu wählen.

Für jeden Speicherbedarf ein passendes Gerät

Allgemein kann man bei den Systemen von einer Datenreduktion um den Faktor zehn bis fünfzig ausgehen, wenn Deduplizierung konsequent für das Backup eingesetzt wird. Auch die Hardwaresysteme setzen dabei zusätzlich Kompressionsalgorithmen ein. Bei Konica Minolta konnte der Bedarf an Festplattenspeicher durch zwei Quantum DXi7500 mit 54 TB und 18 TB um mehr als 95 Prozent gesenkt werden – das entspricht einer Deduplizierungsrate von 26:1.

Mittlerweile gibt es nicht nur Disk-Appliances mit großen Datenkapazitäten für Enterprise Rechenzentren, sondern auch spezielle Lösungen für mittelständische Unternehmen oder Niederlassungen mit weniger Kapazität.

Diese machen Software-basierter Deduplizierung direkte Konkurrenz beim Sparen von Bandbreite bei der Datenübertragung zwischen zwei Standorten. Denn wie die Software-Variante sorgen die Disk-Appliances für Deduplizierung vor Ort und können im Anschluss die deduplizierten Backupdaten ebenfalls übers WAN mit geringen Bandbreiten an eine zentrale Stelle übertragen.

Fazit

Bei ein und derselben Deduplizierungslösung können die Deduplizierungsraten in jedem Unternehmen unterschiedlich ausfallen, je nach Datentyp, Häufigkeit von Datenänderungen und sogar der Backupstrategie.

Das gilt für Hardware-basierte Lösungen ebenso wie für Software-basierte. Es gibt keine allgemeingültige Strategie, aber eines steht fest: Deduplizierung schrumpft zwar das Datenvolumen, aber sie verursacht auch Arbeitslast auf dem System, auf dem sie ausgeführt wird – egal ob Produktionsserver, Backupserver oder Speicherhardware.

Die Wahl des Orts innerhalb der IT-Architektur, an der die Technologie zum Einsatz kommen soll, hängt also davon ab, wo die notwendigen Ressourcen vorhanden sind oder einfach eingefügt werden können. Entscheidet sich ein Unternehmen für Software-basierte Deduplizierung, muss als Grundvoraussetzung genügend CPU-Leistung auf den Servern vorhanden sein.

Unternehmen, deren Systeme nicht komplett ausgelastet sind und keine neue Hardware anschaffen wollen, sind mit Software-basierter Deduplizierung gut bedient. In Unternehmen mit ohnehin hoher Serverauslastung – beispielsweise durch Virtualisierung – wird Hardware-basierte Deduplizierung vielen Fällen sinnvoller sein.

(ID:2043975)