Auszug aus dem IBM Storage System Kompendium 2006 bis 2010 – die Epoche der Server-basierenden Speichersysteme und der Speichervirtualisierung, Teil 11

Autor / Redakteur: Kurt Gerecke und Klemens Poschke / Nico Litzel

Deduplizierung wurde 2007 zu einem heiß diskutierten Thema. De-Duplication ist dabei nichts Neues. Es handelt sich um einen mathematischen Algorithmus, der Bit-Block-Vergleiche durchführt. Das einzige Ziel ist die Vermeidung von Duplikaten. Dabei gibt es die unterschiedlichsten Ansätze und Verfahrensmöglichkeiten.

Firma zum Thema

Bei der Deduplizierung wird jedes Bauteil nur einmal, zusammen mit einer Aufbauanleitung, abgespeichert.
Bei der Deduplizierung wird jedes Bauteil nur einmal, zusammen mit einer Aufbauanleitung, abgespeichert.
( Archiv: Vogel Business Media )

Man kann solche Verfahren im Betriebssystem etablieren. Ein Beispiel dafür ist das z/OS mit der Funktion Hyper PAV. Auch über Software-Tools sind solche Verfahren möglich, wie z. B. Analyse- Tools, ILM, TPC oder Common Store oder über Vergleichsalgorithmen in Soft- und Hardware. Heutige De-Duplication-Verfahren werden vor allem beim Backup auf Virtual Tape Libraries (VTLs) eingesetzt, da die meisten Duplikate beim Backup und bei der Archivierung erzeugt werden.

Das erste professionelle De-Duplication-Verfahren führte IBM bereits im Jahr 2006 für das Produkt IBM Common Store ein. Common Store führt diese Vergleiche bei der E-Mail-Archivierung auf Mail-Basis und/oder Attachment-Basis durch und stellt sicher, dass eine E-Mail und/oder ein Attachment nur einmal archiviert wird. De-Duplication ist ein Feature von Common Store und ist nur in Verbindung mit dem IBM Content Manager als Backend Repository verfügbar.

Bildergalerie

Der De-Duplication-Ansatz findet vor allem Freunde bei Virtuellen Tape Libraries (VTLs). Der mathematische Vergleichsalgorithmus läuft dabei auf der VTL mit und führt Bit-Block-Vergleiche durch. Die Einsparungen an Plattenplatz können dabei durchaus den Faktor 10 bis 20 erreichen. Es sind verschiedene Ansätze verfügbar: über Software, über Microcode mit Hardware oder eine Kombination von Software und Hardware.

Das Inline-Verfahren

Man unterscheidet grundsätzlich zwei Verfahren. Beim Inline-Verfahren werden die Vergleiche durchgeführt, bevor der Bit-Block auf Platte abgespeichert wird. Hier ergibt sich das Problem der Skalierbarkeit und Leistung. Werden zu viele Terabyte mit De-Duplication bearbeitet, gehen die VTLs sehr schnell in der Leistungsfähigkeit zurück, weil der Rechner nur noch den De-Dup-Algorithmus

durchführt. Die Empfehlung der Anbieter ist allgemein, nicht mehr als 15 bis 20 Terabyte mit De-Dup zu bearbeiten.

Post Processing

Das andere Verfahren ist das Post-Processing-Verfahren, wobei der Algorithmus nachgelagert stattfindet. Man schreibt die Blöcke zuerst ohne De-Dup auf Platte und führt die Vergleiche anschließend durch. Dafür wird dann aber zusätzlicher Speicherplatz benötigt.

De-Duplication-Verfahren werden heute von den Firmen IBM (Diligent), EMC (Data Domain), Quantum, FalconStor, Sepaton und Network Appliance angeboten. Auch für die IBMNseries steht De-Duplication in Form der Funktion A-SIS (Advanced Single Instance Storage) zur Verfügung.

Die IBM beschäftigt sich schon seit einigen Jahren mit dem Thema Daten-De-Duplizierung. Bereits im Januar 2004 wurde im IBM-Labor Almaden in Kalifornien das Projekt „Bit Block Mathematics“ ins Leben gerufen. Die Gruppe bestand aus Microcode-Spezialisten und Mathematikern. Ziel war es, einen leistungsfähigen und hochskalierbaren Algorithmus zu entwickeln, der sowohl in Hardware- als auch in Software-Lösungen integrierbar ist. Im Herbst 2008 wird ein De-Duplication-Verfahren als Post-Processing-Verfahren in die Backup-Software TSM (Tivoli Storage Manager) integriert und steht mit dem TSM Release 6.1 zur Verfügung.

Weiter mit: IBM übernimmt Diligent

IBM übernimmt Diligent

Im April 2008 aquiriert IBM die israelische Firma Diligent, um mit der Diligent-Technologie namens ProtecTIER die Herausforderungen Datenwachstum und den Wunsch nach längerer plattenbasierter Datenvorhaltung innerhalb der Datensicherung zu adressieren. ProtecTIER ist eine für den Enterprise-Markt prämierte und seit fünf Jahren bewährte Softwarelösung, die die Technologien Virtuelle Tape Library (VTL) und Daten-De-Duplizierung (DDD) vereint. Die DDD-Engine innerhalb der ProtecTIER-VTL-Lösung heißt Hyperfactor.

IBM Daten-De-Duplizierung mit ProtecTIER und Hyperfactor

Nach der Übernahme von Diligent etabliert IBM einen Produktplan, um die ProtecTIER-VTL-Lösung mit Hyperfactor in geeignete IBM-Hardware-Produkte umzusetzen. Bereits im August 2008 erfolgt die erste Ankündigung der Gateway-Lösungen, also xSeries-basierende Server, die Plattensystemen, die als Backup-Repository dienen, vorgeschaltet werden und mit dem ProtecTIER und Hyperfactor-Algorithmus arbeiten. Im Februar 2009 kündigt IBM die entsprechenden Lösungen als Appliances an und im Juli 2009 erfogt die Ankündigung der direkten Replikationsmöglichkeit der Gateways.

HyperFactor als Data De-Duplizierung ist ein mathematischer Algorithmus, der auf variable Bit-Block-Vergleiche schon gespeicherte Blöcke herausfiltert, sodass sie nicht doppelt abgespeichert werden. Hyperfactor vermeidet also die Abspeicherung von Duplikaten. Die Einsparung ist dabei direkt vom erzielten De-Duplizierungsfaktor abhängig, der bis zu Faktor 25 gehen kann. Vor allem bei Backup-Verfahren, die viele Full Backups beinhalten und eine relativ lange Retention-Periode haben, werden die höchsten De-Duplizierungsfaktoren erreicht. Bei TSM sind die Faktoren wesentlich kleiner, weil TSM schon auf Incremental-Basis arbeitet und nur die entstandenen Änderungen im Backup wegschreibt.

ProtecTIER Gateway TS7650G

Nachdem das ProtecTier Gateway zwischen den Servern und den Disksystemen, auf die der Backup gemacht werden soll, installiert ist, werden die Hyperfactor-Algorithmen dazu verwendet, redundante Daten herauszufiltern. Dazu ist ein Index notwendig, über den festgestellt werden kann, welche Datenblöcke bereits im Repository, d. h. auf den Disksystemen abgespeichert sind. Der Algorithmus analysiert den ankommenden Datenstrom und stellt über den Index Ähnlichkeiten fest (agnostisches Verfahren). Werden keine Ähnlichkeiten gefunden, wird der entsprechende Block direkt im Repository gespeichert.

Bei Ähnlichkeiten werden die entsprechenden Blöcke vom Repository eingelesen und mit den neuen Daten verglichen. Dabei werden die identischen Daten herausgefiltert und nur die verbleibende Differenz wird im Repository neu abgespeichert. Über diese Methode ist eine 100%ige Datenintegrität gewährleistet.

Weiter mit: Der Index umfasst vier Gigabyte

Der Index umfasst vier Gigabyte

Der Index hat eine feste Größe von vier Gigabyte und wird permanent im Hauptspeicher des Gateways (xSeries) gehalten. Das Verhältnis der gespeicherten Daten zum Index (Ratio of Repository to Index) spiegelt die Effizienz des Index wider. Die Zahl von 250.000:1 beim Hyperfactor-Verfahren sagt aus, dass ProtecTier mit einem festen Memory Index von vier Gigabyte das 250.000-fache, d. h. ein Petabyte an Daten verwalten kann. Dabei ist der De-Duplizierungsfaktor noch nicht berücksichtigt. Wäre der erzielte Faktor bei 25, könnten 25 Petabyte an Daten verwaltet werden. Das ist der große Vorteil dieser Lösung, weil die verwalteten Kapazitäten ohne Leistungsverlust in diese hohe Dimension skaliert werden können (im Vergleich: Hash-basierende Verfahren erzielen in der Regel nur ein Ratio von etwa 400:1.

Das bedeutet, dass die Anforderung an die Hauptspeichergröße im Rechner wesentlich höher ist und ab einer bestimmten Datenmenge der Index nicht mehr komplett im Hauptspeicher gehalten werden kann. Dann kommt es sofort zum Performance-Einbruch! Die ProtecTier-Lösung ist daher deutlich besser für sehr hohe Kapazitäten bei hoher Leistungsfähigkeit im Vergleich zu Hash-basierenden Verfahren geeignet und bildet eine echte Enterprise-Lösung ab).

Das ProtecTier Repository beinhaltet sowohl die Backup-Daten als auch die dazugehörigen Meta-Daten. Die Meta-Daten beinhalten zwei Kopien des Hyperfactor-Index, alle virtuellen Volume Files, die Konfigurationsdaten der virtuellen Libraries und Storage Management Daten (Pointer-Tabellen, Referenz Counter etc.).

Dabei werden die Datenblöcke selbst im Repository RAID5-basierend abgespeichert, während die Meta-Daten aus Sicherheitsgründen RAID10 basierend, also doppelt, abgespeichert werden. Das Repository kann auf einem einzigen RAID-Array gehalten werden oder über viele RAID-Arrays verteilt werden.

LUNs reservieren

LUNs, die für das ProtecTier Repository benutzt werden, dürfen nicht von einer Array-Gruppe kommen, die von anderen Applikationen benutzt werden. Es wird empfohlen, dass für das Repository eine LUN so angelegt wird, dass sie die gesamte RAID-Gruppe umfasst. IBM Hyperfactor kann bis zu einer Datenreduzierung 25:1 führen und skaliert bis auf ein Petabyte native Plattenkapazität. Bei einem erreichten De-Duplication-Faktor 25:1 können bei einer nativen Ein-Petabyte-Plattenkapazität 25 Petabyte an Daten verwaltet werden. Das Gateway ist als Single Note Gateway oder in einer Clusterkonfiguration mit zwei Nodes verfügbar. Die Leistung liegt bei einer Clusterkonfiguration bei bis zu 1.000 MB/s, ist aber direkt abhängig von der dahinterliegenden Platteninfrastruktur und Plattenart (FC-Platten oder SATA-, FATA-Platten).

Die hohe Leistungsfähigkeit von Hyperfactor kommt von der Tatsache, dass der Algorithmus auf dynamischer Blockbasis arbeitet und identifizierte kleine Blöcke, die kleiner als acht KB sind, nicht betrachtet werden und sofort als „neu“ im Repository gespeichert werden. Würde man diese kleinen Blöcke wie die großen Blöcke behandeln, wäre eine Skalierbarkeit in diese hohe Leistungsklasse nicht möglich.

Weiter mit: 256 virtuelle Laufwerke per Node

256 virtuelle Laufwerke per Node

Als Band-Laufwerksemulation verwendet ProtecTier virtuelle LTO-Laufwerke (LTO-3). Neben LTO ist auch die Emulation von DLT (DLT7000) möglich. Unterstützt sind bis zu 256 virtuelle Laufwerke per Node und 512 Laufwerke per Cluster. In einer Clusterkonfiguration können bis zu 16 virtuelle Libraries abgebildet und bis zu 500.000 virtuelle Kassetten emuliert werden.

Das Hyperfactor-De-Duplication-Verfahren stellt derzeit auf dem Markt als einziges Verfahren eine 100%ige Datenintegrität sicher. Im Backend, also hinter dem Gateway, sind alle aktuellen IBM Plattensysteme unterstützt. Auch Nicht-IBM-Systeme von HDS, EMC und HP können betrieben werden.

ProtecTIER neue Prozessoren für das TS7650G-Gateway

Im 1. Quartal 2009 führt IBM neue Prozessoren für die TS7650G Gateways ein. Zum Einsatz kommt der x3850 M2 MT7233-Prozessor. Hierbei handelt es sich um einen 4 x 6 Core-Prozessor mit 2,6 GHz und 32 Gigabyte RAM mit zwei integrierten RAID1-betriebenen 146-GB-SAS Disk-Laufwerken, 2 Emulex Dual Port FC-Adapter für die Hostanbindung und zwei Qlogic Dual Port FC-HBAs für die Anbindung des Backend-Platten-Repositories. Für die Replizierung stehen Dual Port Gigabit Ethernet-Adapter zur Verfügung. Der neue Prozessor steigert die Gateway-Leistungsfähigkeit um ca. 30 Prozent. Das wird durch den 4 x 6 Core-Prozessor möglich, der jetzt gleichzeitig 24 Datenströme mit De-Duplizierung bearbeiten kann.

TS7650G Disk Backend als Repository

Im Backend des TS7650G Gateways werden die IBM Plattensysteme DS3400, die DS4000- und DS5000-Modelle, die DS8000, XIV Storage, SVC und Nseries unterstützt. Ebenso können die Nicht-IBM-Plattensysteme HDS AMS1000, EMC CX und HP EVA betrieben werden.

ProtecTIER Replikation

Für die Gateway-Lösung besteht seit September 2009 (Verfügbarkeit) die Möglichkeit der IP-basierten Replikation. Damit können virtuelle Bänder in eine andere Lokation direkt kopiert werden, um auf diese Weise die Notwendigkeit von physikalischen Bandtransporten zu vermeiden. Da bei der Replikation nur die geänderten Blöcke übertragen werden, hält sich die benötigte Bandbreite der IP-Verbindungen in Grenzen. Die Anforderung für eine dritte, „sichere” Kopie besteht bei vielen IT-Umgebungen schon lange, doch bisher konnte dies technisch nicht umgesetzt werden, weil entsprechende Leitungskapazitäten nicht vorhanden oder nicht bezahlbar waren. Jetzt steht dem nichts mehr im Wege und solche Konzepte können ohne die Notwendigkeit riesiger Übertragungsbandbreiten realisiert werden.

Pro Node stehen zwei Ethernet-IP-Ports zur Verfügung. Ältere Systeme können durch eine zweite Ethernet-Karte nachgerüstet werden. Das Besondere dieser Replikationsfunktion ist der automatische Failover und Failback. Fällt die primäre Seite aus, kann die Disaster/Recovery-Seite per Knopfdruck zur „Primary“ gemacht werden und der Betrieb läuft weiter. Steht die primäre Seite dann wieder zur Verfügung, wird ein Failback durchgeführt und die Daten werden zur primären Seite zurückrepliziert.

Die Replikation kann Policy-basierend betrieben werden. Dabei kann die Replikation ständig und sofort durchgeführt werden (Immediate Mode). Man kann die Replikation aber auch in einem geplanten Zeitfenster durchführen (Replication Window). Die Policies können sowohl einzelne Kassetten als auch einen Pool von vielen Kassetten administrieren. Dabei gibt es zwei Betriebs-Modi: Der Visibility-Control- Modus importiert bzw. exportiert die Kassetten, die über die Backup-Applikation gesteuert werden (Check-Out). Kassetten, die exportiert werden, werden in die Target-VTL repliziert. Beim Basic-DR-Modus (Disaster Recovery) läuft die Replikation ständig und transparent zur Backup-Applikation mit und die Kassetten stehen sowohl auf der primären Seite als auch auf der Remote-Seite zur Verfügung.

Weiter mit: Multipathing und Control Path Failover

Multipathing und Control Path Failover

Das TS7650G Gateway und die TS7650 Appliances bieten zusammen mit der TS7500 Familie derzeit als einzige VTLSysteme auf dem Markt einen Multipfad-Device-Treiber für FC Failover und Load Balancing an. Damit lassen sich die VTL-Lösungen redundant in SAN Fabric-Infrastrukturen betreiben. Fallen Adapter, Pfade oder ganze SAN-Switche aus, läuft der Betrieb unterbrechungsfrei weiter, weil die „Commands“ für die virtuelle Library und Laufwerke automatisch über die verbleibenden Adapter, Pfade und SAN-Switche übertragen werden können (Control Path Failover und Data Path Failover).

Zusätzlich bietet der Data Path Failover ein Load Balancing auf den redundanten Pfaden vom Server zu den virtuellen Laufwerken an. Dadurch wird eine gleichmäßige Auslastung der physikalischen Fibre-Channel-Links und den FC-Ports ermöglicht.

ProtecTIER TS7650 Appliances

Neben der Gateway-Lösung stehen auch Appliance-Lösungen im Sinne von ‘all-in-one’ zur Verfügung. Mit den Appliances adressiert IBM vor allem Mittelstandskunden, die jetzt auch die Möglichkeit haben, eine Enterprise-Lösung für De-Dup-VTLs kostengünstig zu etablieren. IBM hat den Hyperfactor-De-Duplizierungsalgorithmus nach allen Regeln der Kunst darauf überprüft, ob tatsächlich eine 100%ige Datenintegrität gewährleitet ist. Dafür wurden auch Fremdfirmen und Hacker beauftragt. Es konnten keine Schwachstellen aufgedeckt werden. Es ist deshalb davon auszugehen, dass IBM Daten-De-Duplizierung über die Zeit auf das ganze IBM-Speicherportfolio und alle Betriebssystemplattformen adaptieren wird. ProtecTier ist für die Mainframe-Umgebung (System z) bereits in 2010 vorgesehen.

Dieser Artikel ist ein Auszug aus dem IBM-System-Storage-Kompendium. Hier finden Sie das vollständige Kompendium in Form eines Whitepapers.

(ID:2044229)