Auszug aus dem IBM Storage System Kompendium

2006 bis 2010 – die Epoche der Server-basierenden Speichersysteme und der Speichervirtualisierung, Teil 11

03.04.2010 | Autor / Redakteur: Kurt Gerecke und Klemens Poschke / Nico Litzel

Bei der Deduplizierung wird jedes Bauteil nur einmal, zusammen mit einer Aufbauanleitung, abgespeichert.
Bei der Deduplizierung wird jedes Bauteil nur einmal, zusammen mit einer Aufbauanleitung, abgespeichert.

Deduplizierung wurde 2007 zu einem heiß diskutierten Thema. De-Duplication ist dabei nichts Neues. Es handelt sich um einen mathematischen Algorithmus, der Bit-Block-Vergleiche durchführt. Das einzige Ziel ist die Vermeidung von Duplikaten. Dabei gibt es die unterschiedlichsten Ansätze und Verfahrensmöglichkeiten.

Man kann solche Verfahren im Betriebssystem etablieren. Ein Beispiel dafür ist das z/OS mit der Funktion Hyper PAV. Auch über Software-Tools sind solche Verfahren möglich, wie z. B. Analyse- Tools, ILM, TPC oder Common Store oder über Vergleichsalgorithmen in Soft- und Hardware. Heutige De-Duplication-Verfahren werden vor allem beim Backup auf Virtual Tape Libraries (VTLs) eingesetzt, da die meisten Duplikate beim Backup und bei der Archivierung erzeugt werden.

Das erste professionelle De-Duplication-Verfahren führte IBM bereits im Jahr 2006 für das Produkt IBM Common Store ein. Common Store führt diese Vergleiche bei der E-Mail-Archivierung auf Mail-Basis und/oder Attachment-Basis durch und stellt sicher, dass eine E-Mail und/oder ein Attachment nur einmal archiviert wird. De-Duplication ist ein Feature von Common Store und ist nur in Verbindung mit dem IBM Content Manager als Backend Repository verfügbar.

Der De-Duplication-Ansatz findet vor allem Freunde bei Virtuellen Tape Libraries (VTLs). Der mathematische Vergleichsalgorithmus läuft dabei auf der VTL mit und führt Bit-Block-Vergleiche durch. Die Einsparungen an Plattenplatz können dabei durchaus den Faktor 10 bis 20 erreichen. Es sind verschiedene Ansätze verfügbar: über Software, über Microcode mit Hardware oder eine Kombination von Software und Hardware.

Das Inline-Verfahren

Man unterscheidet grundsätzlich zwei Verfahren. Beim Inline-Verfahren werden die Vergleiche durchgeführt, bevor der Bit-Block auf Platte abgespeichert wird. Hier ergibt sich das Problem der Skalierbarkeit und Leistung. Werden zu viele Terabyte mit De-Duplication bearbeitet, gehen die VTLs sehr schnell in der Leistungsfähigkeit zurück, weil der Rechner nur noch den De-Dup-Algorithmus

durchführt. Die Empfehlung der Anbieter ist allgemein, nicht mehr als 15 bis 20 Terabyte mit De-Dup zu bearbeiten.

Post Processing

Das andere Verfahren ist das Post-Processing-Verfahren, wobei der Algorithmus nachgelagert stattfindet. Man schreibt die Blöcke zuerst ohne De-Dup auf Platte und führt die Vergleiche anschließend durch. Dafür wird dann aber zusätzlicher Speicherplatz benötigt.

De-Duplication-Verfahren werden heute von den Firmen IBM (Diligent), EMC (Data Domain), Quantum, FalconStor, Sepaton und Network Appliance angeboten. Auch für die IBMNseries steht De-Duplication in Form der Funktion A-SIS (Advanced Single Instance Storage) zur Verfügung.

Die IBM beschäftigt sich schon seit einigen Jahren mit dem Thema Daten-De-Duplizierung. Bereits im Januar 2004 wurde im IBM-Labor Almaden in Kalifornien das Projekt „Bit Block Mathematics“ ins Leben gerufen. Die Gruppe bestand aus Microcode-Spezialisten und Mathematikern. Ziel war es, einen leistungsfähigen und hochskalierbaren Algorithmus zu entwickeln, der sowohl in Hardware- als auch in Software-Lösungen integrierbar ist. Im Herbst 2008 wird ein De-Duplication-Verfahren als Post-Processing-Verfahren in die Backup-Software TSM (Tivoli Storage Manager) integriert und steht mit dem TSM Release 6.1 zur Verfügung.

Weiter mit: IBM übernimmt Diligent

Inhalt des Artikels:

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 2044229 / Deduplizierung)