Suchen

Atempo macht mit Software-basierter Deduplizierung die Daten kleiner

Der Dedup-Algorithmus löst sich langsam von der Appliance

Seite: 2/3

Firma zum Thema

Wissenschaftliche Daten können hochredundant sein

Gegner der Software-basierten Deduplizierung argumentieren, dass durch die Identifikation redundanter Datenblöcke eine zusätzliche Last auf die zu sichernden Server geladen wird. Das stimmt natürlich – Deduplizierung ist schließlich kein Zauberwerk!

Bemerkbar macht sich das Mehr an benötigter Leistung jedoch nur, wenn die Server ohnehin bereits an der Grenze ihrer Belastbarkeit operieren oder der Backuplauf während der Arbeitszeit durchgeführt wird.

Wird das Backup in Zeiten mit geringer Serverauslastung gelegt, kann das Potenzial der Technologie in der Regel ohne Leistungseinbußen ausgeschöpft werden. In diesem Fall können die Daten zusätzlich online komprimiert werden, um die Speicherauslastung weiter zu optimieren.

Diese Kombination aus Deduplizierung und Komprimierung kann zu beeindruckenden Ergebnissen führen. Das Biopharmazieunternehmen Transgene, das die Software-basierte Deduplizierungslösung von Atempo im Einsatz hat, berichtet von Deduplizierungraten von 20:1 bis hin zu 600:1(!).

Solch hohe Raten können jedoch nur zustande kommen, wenn sehr viele Redundanzen innerhalb der Daten auftreten. Bei Transgene basiert diese extrem hohe Rate auf dem Backup des OpenText-Servers mit 330 GByte Forschungsdaten.

Hardware-basierte Deduplizierung

Bei der Hardware-basierten Deduplizierung werden redundante Datenblöcke nicht an der Quelle, sondern erst am Ziel – das heißt dem Speicher – identifiziert und eliminiert. Der Pluspunkt Hardware-basierter Deduplizierungslösungen auf Target-Seite ist, dass sie einfach als zusätzliche Instanz als VTL oder NAS in die existierende Backup-Architektur integriert werden können.

Eine Umgestaltung der Backupstruktur ist meist nicht notwendig. Der tatsächliche Nutzen der Deduplizierung steht in direktem Zusammenhang damit, wie effizient sie gleiche Bitfolgen erkennen kann und wie hoch im Anschluss daran die die Indizierung skaliert werden kann – sprich, mit wie vielen Dateien die erkannten Bitfolgen verlinkt werden kann.

Nachbearbeitung

Das Auffinden und Indizieren redundanter Daten innerhalb der Backupdaten benötigt aber Ressourcen auf dem System, auf dem die Technologie durchgeführt wird. Die Hardware-basierte Variante der Technologie hat hier den großen Vorteil, dass Clients und Server durch den Deduplizierungsprozess nicht beeinträchtigt werden. Das Überlastungsrisiko der Server sinkt, da nur die Performance der Speicherhardware ausgeschöpft wird

Bei der Post-processing Deduplizierung werden die Daten zunächst ohne Deduplizierung mit Maximalgeschwindigkeit auf das Backup-Medium geschrieben und werden erst in einem zweiten Schritt auf Redundanzen hin analysiert.

Bei dieser Variante werden Verzögerungen beim Einlesen der Daten vermieden. Damit ist Post-processing Deduplizierung ideal für Anwender, denen eine möglichst hohe Backup-Performance wichtig ist. Andererseits muss zunächst Speicherplatz für das komplette Backup-Datenvolumen bereitgestellt werden, bevor es reduziert wird.

weiter mit: Methode Just in Time

(ID:2043975)