Das Special von Storage-Insider zum Brennpunktthema


Warum ist Deduplizierung wichtig?

Kommt drauf, an welches Argument Sie überzeugen könnte. Der technische Begriff selbst gibt einen ersten Hinweis, worum es geht: Entdoppelung! Keine Chance mehr für Kopien, heißt die oberste Devise dieser Technik.

Den ersten Einsatz hat Deduplizierung bei der Datensicherung gehabt. Nirgendwo werden mehr Ressourcen verbraucht. Wer beim Backup altbewährte Vorgehensweisen praktiziert, kopiert an jedem Wochenende den gesamten Datenbestand auf ein oder mehrere Bänder, alle drei Monate lang wird eine Vollsicherung beiseitegelegt und dann wird jedes Quartal und jedes Jahr noch eine Vollsicherung in einem externen Schließfach untergebracht. Der gesamte Datenbestand des Unternehmens ist damit zwölfmal auf Bändern gespeichert – und ein dreizehntes Mal auf den Speichersystemen selbst.

Deduplizierung geht aber weit darüber hinaus, nur die Kopie einer Datei zu eliminieren. Digitale Daten haben in sich selbst sehr viele Wiederholungen. Mit ein wenig Rechenarbeit lassen sich auch diese binären Kopien finden und durch eine Art Fingerabdruck, der weniger Speicherplatz benötigt, ersetzen.

Das Datenwachstum an sich lässt sich mit Deduplizierung nicht aufhalten, aber auf jeden Fall durch die Entdoppelung dramatisch reduzieren. Je nach Art der Daten kann man von einer Kapazitätseinsparung zwischen Faktor 10 bis Faktor 40 ausgehen. Da noch eine externe Kopie des Datenbestandes notwendig ist, ließe sich der gesamte Datenbestand eines Unternehmens im günstigsten Fall auf weniger als der doppelten Speicherkapazität der Primärdaten reduzieren.

Neben diesen internen Aspekten gibt es auch externe Belege für die Bedeutung der Deduplizierungstechnik. Nie zuvor wurden Start-ups so schnell vom „Markt“ absorbiert. Quantum, Hersteller von Bandbibliotheken, baut seine Zukunft auf dieser Technik; EMC kaufte Avamar und kooperierte gleichzeitig mit Data Domain und Diligent. IBM wollte eine eigene Deduplizierungstechnik entwickeln, hat dies anscheinend, wie auch die Zusammenarbeit mit Falconstor, zugunsten der Übernahme von Diligent aufgegeben. Weitere interessante Kandidaten sind Exagrid und Sepaton, die nun langsam auf dem deutschen Markt sichtbar werden. Exagrid arbeitet mit einer speziellen Inline-Technik, und Sepaton bezieht als einziger Anbieter die Anwendung in die Entdopplung ein und dedupliziert „Application aware“.

PS: Anwender, die sich für diese Technik interessieren, sollten sich gut mit den Argumenten der beiden Deduplizierungs-Fraktionen Inline- respektive Postprocessing auseinandersetzen.

Das Wichtigste aus der aktuellen Berichterstattung im Bereich Deduplizierung.

 

Deduplizierung für Dummies

 
Sie kennen das vielleicht aus TV-Shows: Ein Mann betritt die Bühne, bekommt eine Zahl mit 100 und mehr Stellen präsentiert und drei Minuten Zeit, sich diese ellenlange Nummer zu merken. Für den Normalkonsumenten unfassbar, der schon mit seinem Lang- und Kurzzeitgedächtnis, dem Kartenspiel Memory und häufig gewählten Telefonnummern seine liebe Mühe hat.


Wer sein Gedächtnis auf diesen hohen Stand bringen will, der findet im Internet zahlreiche Tipps, wie er seine grauen Zellen trainieren kann. Der Grundtenor ist einfach zu verstehen, aber schwer umzusetzen: Man nimmt sich eine abstrakte Zahl und füllt diese mit Inhalt und Bedeutung.

Gedächtnistrainer haben für diese Übersetzungsleistung einige Tipps und Tricks parat. Der Memory-Schüler muss sich Gegenstände des täglichen Lebens imaginieren und zwar so, als ob er diesen Gegenstand konkret vor sich sieht. Kann er dieses Bild mit einer Zahl verbinden, dann hat er den ersten Schritt geschafft. Eine einzelne duftende rote Rose könnte vielleicht für die Zahl eins stehen, die Brooklyn-Brücke in New York für die Zahl zwei, ein Hut für die Zahl drei, die blaue Mauritius für die Zahl vier, usw.

 

Auf die richtige Geschichte kommt es an

 

Um an TV-Shows teilnehmen zu dürfen, sollte man Bildmaterial für die Zahlen 00 bis 99 mitbringen. Damit hätte man dann schon mal eine gute Grundlage. Ungelöst ist damit aber noch die Position des Zahlenpaars in der Gesamtziffer. Wer jetzt eine gute Geschichte aus seinen Zahlenpaarbildern fertigen und mindestens im Kurzzeitgedächtnis speichern kann, hat gewonnen.

In der Informationstechnik (IT) begeistert eine ähnliche Form von „Gedächtnistraining“ seit etwa drei Jahren Hersteller wie Anwender. Nachdem man über Jahrzehnte hinweg den Gedächtnisspeicher mit „0“ und „1“ überfüllt hat, um diesen dann mit immer mehr Rechenleistung zu durchforsten, tritt jetzt eine Kehrtwende ein.

Mit ein wenig Mathematik und Software, Algorithmen genannt, funktionieren in der IT die Analogien. Damit es nicht zu einfach wird, produziert man hier für 512-stellige Binärzahlen jeweils ein „Bild“, das als Zeiger, Referenz, Hash oder auch Fingerprint bezeichnet wird. In einer Tabelle legt man anschließend in der richtigen Reihenfolge die „Bilder“ ab und setzt diese bei Bedarf wieder mit den zugeordneten Binärzahlen zusammen.