Backup und Recovery

Festplatte statt Bandlaufwerk

04.06.2007 | Autor / Redakteur: Hans Schramm / Nico Litzel

Ein Festplatten-basiertes Backup und Recovery gewinnt als notwendige Ergänzung zur Bandsicherung immer mehr an Bedeutung. Unter den diversen Varianten bieten die Array-basierten Lösungen klare Vorteile: Sie nutzen neueste, schnelle SAN-Technologien – und das zu einem hervorragenden Preis-Leistungs-Verhältnis.

Das Wachstum der Datenmengen folgt seiner eigenen Gesetzmäßigkeit: Es erweist sich in den meisten IT-Umgebungen als nahezu grenzenlos. Lösungen, die nach gestrigen Maßstäben Kapazitäten ohne Ende versprachen, platzten aus unterschiedlichen Gründen schon bald aus allen Nähten. Die zu speichernden Datenmengen wuchsen rapide an, die Administratoren kamen mit der Datensicherung kaum nach, und auch die Wiederherstellung nach einem Plattencrash, einem Stromausfall oder einem anderen Störfall dauerte einfach zu lang.

Statt Stunden auf einen Recoverylauf warten zu müssen, fordern die Fachabteilungen heute eine Wiederherstellung der Daten innerhalb von 20 bis 30 Minuten. Eine Lösung dafür besteht in der Festplatten-basierten Datensicherung und dem zugehörigen Recovery.

Vor dem Hintergrund der technologischen Entwicklung bei externen Speichersystemen stimmen hier Performance, Preis und Verfügbarkeit. Speziell Festplatten mit seriellen High-Speed-Schnittstellen (Serial ATA) erweisen sich als Schlüsselfaktor für preiswerte und dennoch leistungsfähige Speichermedien für die Datensicherung.

In diesem Umfeld haben sich zwei grundlegende Backup-Verfahren etabliert: Erstens die Remote Replication zu einem zweiten Storage Array, das lokal oder an einem entfernten Ort untergebracht ist. Zweitens eine Zeitpunkt-bezogene Kopie (Point-in-time Copying) des Datenbestands an einem Ort. Im IT-Betrieb kommt natürlich eine Reihe von Mischformen vor.

Breites Spektrum von Verfahren

Remote Replication, auch als Remote Mirroring bekannt, kopiert in Echtzeit Files oder Datenblöcke auf ein oder mehrere entfernt stehende Storagesysteme. Beim Point-in-time Copying werden zu bestimmten Zeitpunkten Kopien des Volumes erzeugt, wobei es eine Unterscheidung zwischen Snapshots und Clones gibt. Ein Snapshot ist eine virtuelle Kopie, die Pointer auf das eigentliche Volume und einen Index der Datenblöcke enthält, die sich seit dem letzten Snapshot änderten. Schreibt eine Applikation Daten auf das Volume, werden die alten Daten in den Snapshot-Index kopiert. Im Gegensatz zu einem Snapshot ist ein Clone ein komplettes Abbild aller Datenblöcke zu einem bestimmten Zeitpunkt.

Die Datensicherungstechnologien unterscheiden sich des Weiteren darin, an welcher Stelle die dazu benötigte Software angesiedelt ist: Meistens läuft sie entweder auf den Host-Plattformen selbst oder den Controllern der externen Storage Arrays. Als dritte Variante schließlich kann die Software im LAN implementiert sein, entweder auf einer dedizierten Appliance oder im Network Switch.

Unter den Datensicherungstechnologien bieten die Host-basierten Verfahren das beste Preis-Leistungs-Verhältnis. Ihr Schwachpunkt: Es sind Insellösungen, die jeweils lediglich ein Verfahren (Remote Mirroring oder Point-in-time Copying) für einen bestimmten Applikationstyp beherrschen. Zudem muss die Software auf jedem einzelnen Server installiert, bei Betriebssystem- oder Applikations-Updates modifiziert und in Umgebungen mit vielen Servern mit einem erheblichen Personalaufwand administriert werden. Dazu kommt, dass die Datensicherungssoftware sich die vorhandenen Verarbeitungsressourcen mit den anderen auf den Quell- und Zielsystemen vorhandenen Applikationen teilen muss.

Bislang führen LAN-basierte Verfahren ein Schattendasein. Angesiedelt im I/O-Datenpfad zwischen den Hosts und den externen Speichermedien sind sie als Appliance oder Blade-Option eines SAN-Switches implementiert. Sie agieren damit als Schaltstelle zwischen unterschiedlichen Disksystemen. Allerdings müssen alle in diese Struktur eingebundenen Systeme technisch eigens angepasst werden – was sich in der Praxis als entscheidende Crux erweist.

Dagegen erfreuen sich seit geraumer Zeit Array-basierte Technologien einer zunehmenden Verbreitung – speziell in Organisationen, die dezidierte Konsolidierungsstrategien verfolgen. Ihr großes Plus: Sie ermöglichen in einer einheitlichen, unternehmensweiten Lösung den parallelen und gemischten Einsatz von Remote-Mirroring- und Point-in-time-Copying-Verfahren für Backup und Recovery.

Die Wirtschaftlichkeit solcher Lösungen lässt sich durch eine Geräte-abhängige Lizenz (im Gegensatz zu einer Volumen-abhängigen) und eine genau austarierte Unterstützung innerhalb (Mix von Laufwerken) und zwischen den im Unternehmen genutzten Storage Arrays (von Einstiegs- bis zu High-End-Systemen) optimieren.

Array-basierte Datensicherung

Unter allen verfügbaren Datensicherungstechnologien verfügen Array-basierte Verfahren über das umfangreichste Funktionsspektrum. Administratoren können damit hoch individuelle Backup- und Recovery-Lösungen für die unterschiedlichsten Applikationen einrichten. Zudem bieten die auf dem Markt verfügbaren Produkte, etwa die CX3-Serie von Dell | EMC, vielfältige Möglichkeiten, die Plattenressourcen beispielsweise als Replication Repositories zu konfigurieren: So lassen sich globale Repositories mit preiswerten Laufwerken innerhalb eines Arrays einrichten, die dann von einer zentralen Stelle aus für vielfältige Datensicherungs- und Wiederherstellungsaufgaben eingesetzt werden.

Die Replikation zwischen einem Source Array (Quelle) und einem oder mehreren Remote Arrays ist auf zwei Arten möglich: synchron und asynchron. Im synchronen Modus müssen Quell- und Ziellaufwerk einen Write Access abschließen, bevor der nächste Schreibzugriff möglich ist. Die Folge: Ein Recovery setzt genau zu dem Zeitpunkt auf, zu dem der Störfall eintrat; es kommt zu keinen Datenverlusten. Im asynchronen Modus laufen die Schreibvorgänge auf dem Source-Laufwerk weiter, während im Hintergrund das Ziel-Laufwerk aktualisiert wird.

Die Arten der Datenverbindungen zwischen Source und Target bilden die Schlüsselelemente jeder Remote-Mirroring-Implementierung. Standard-Fibre-Channel-Links eignen sich für Entfernungen bis zu zehn Kilometern, darüber hinaus kann es wegen der Channel-Latenz und Interferenzen zu Problemen kommen. Die Verwendung von Glasfaserkabeln und Repeatern oder DWDM-Verbindungen (Dense Wavelength Division Multiplexing) ermöglicht Fibre-Channel-Verbindungen bis zu 100 Kilometern.

Kostentreiber Bandbreite

Für den Synchronmodus ist die Bandbreite der Datenleitung zwischen Source und Target eine entscheidende Größe. Die Bandbreite sollte so gewählt werden, dass sie auch die Spitzenbelastungen einer Applikation mühelos bewältigen kann. Da eine hohe Bandbreite über weite Entfernungen bereitzustellen ein kostspieliges Unterfangen ist, wird der synchrone Modus im Wesentlichen innerhalb von Gebäuden, des Firmengeländes oder maximal über kurze Distanzen eingesetzt.

Für unternehmenskritische Applikationen gilt der synchrone Modus vielen Anwendern als unabdingbar, denn hier haben Aspekte wie eine niedrige Latenz und Near-Zero-Toleranz bei Datenverlusten Priorität.

Im asynchronen Modus sind die zu sichernden Applikationen weniger abhängig von der Bandbreite als im synchronen Modus. Statt sich an der Spitzenbelastung zu orientieren, genügt es hier, die durchschnittliche I/O-Arbeitslast bei Backup und Recovery zu berücksichtigen. Daher bietet der asynchrone Modus auch die deutlich wirtschaftlichere Lösung für Disaster-Recovery-Lösungen über größere Distanzen.

Über die Grundfunktionen hinaus verfügen viele Arrays – so auch die von Dell | EMC – über weitergehende Remote-Mirroring-Features, beispielsweise in Kombination mit Point-in-time-Kopien. In vielen Unternehmen hat es sich für ein schnelles Recovery bewährt, mindestens zwei Versionen der Produktivdaten zur Wiederherstellung vorzuhalten: eine für aktives Mirroring und eine Zeitpunkt-bezogene, vollständige Kopie des Datenbestands. Diese Mixtur deckt ein breites Spektrum von Notfällen ab.

Eingesetzt wird ein solches Szenario etwa, um eine vollständig konsistente lese- und schreibfähige Kopie des produktiven Datenbestands auf einen Server zu laden und die Daten dann für Simulations- oder Testläufe zu verwenden.

Recht nützlich ist die Session Persistence. Sie erlaubt ein schnelles Recovery der replizierten Sessions selbst. Session Persistence nutzt einen Write Log auf dem Source Array und kann dann eine schnelle Resynchronisation mit dem Target-Array im Falle temporärer Störungen durchführen. Fan-in-Mirroring (manchmal auch als Many-to-Many-Mirroring bezeichnet) repliziert die Daten mehrerer Quellen auf ein Ziel-Array.

Anwender verbessern damit die Wirtschaftlichkeit ihrer Data-Recovery-Lösungen, indem mehrere Niederlassungen auf eine hoch gesicherte Kopie ihrer Datenbestände zugreifen. Das Gegenstück dazu ist Fan-out-Mirroring (auch als One-to-Many- oder N-Way-Mirroring bekannt). Hier werden die zu sichernden Daten auf mehrere Ziellaufwerke repliziert, was die Sicherheit einer Recovery-Lösung zusätzlich erhöht. Zu erwähnen ist an der Stelle auch bidirektionales Mirroring. Hier können verschiedene Laufwerke eines Storage Arrays zur gleichen Zeit als Source und Target fungieren.

Unternehmen mit weit verteiltem Filialnetz sparen sich durch solch eine Lösung teure Datenleitungen zwischen der Zentrale und ihren Niederlassungen, denn das Mirroring erfolgt zwischen unterschiedlichen Storage Arrays an einem Ort. Bleibt als abschließende Variante die Verwendung unterschiedlicher RAID-Level für Backup und Recovery. Denkbar ist hier beispielsweise ein Mirroring von einem RAID-1-Fibre-Channel-Laufwerk auf eine RAID-5-SATA-Platte, wobei dieses softwaremäßig von beiden unterstützt werden muss.

Zeitpunkt-bezogene Kopien

Die Möglichkeit, entweder virtuelle Kopien (Snapshots) oder die vollständige, Block-für-Block-Kopie eines Volumes zu erzeugen, ist beispielsweise entscheidend, wenn Teile des Datenbestands korrumpiert sind. Solche Point-in-time-Kopien werden etwa auch für Softwaretests oder Data Mining eingesetzt. Derartige Services generieren typischerweise lokale Kopien innerhalb des gleichen Arrays als Source Volume. Da Snapshots keine vollständigen Abbilder produzieren, sind sie Platz sparend und können sofort erzeugt werden. Der Nachteil: Der Snapshot steigert die Zahl der Schreibvorgänge, denn bei Änderungen der Daten wird eine Kopie des alten Bestands in den Snapshot-Index geschrieben.

Auch ein Lesezugriff auf den Snapshot kann die Performance negativ beeinflussen, speziell dann, wenn dazu der Zugriff auf alte Daten erforderlich ist, die sich noch immer auf dem Source-Laufwerk befinden. Eine vollständige Kopie der Daten setzt ein Repository voraus, das größer sein sollte als das Quell-Laufwerk. Statt den laufenden Betrieb zu beeinflussen, lässt sich eine komplette Kopie als Background-Prozess erzeugen. Auch der Zugriff auf die derart gesicherten Daten bedeutet keine Performanceeinbußen bei der Arbeit mit dem Source Volume.

Zusammengefasst bieten Array-basierte Lösungen in ihren unterschiedlichen Ausprägungen im Vergleich zur Datensicherung auf Bändern deutliche Vorteile unter den Aspekten der Administrierbarkeit und der laufenden Kosten. Zudem ermöglichen sie deutlich flexiblere Recovery-Szenarien für nahezu alle Fälle von Störungen und Fehlern. Bereits in der Grundausstattung überzeugen sie durch ein hervorragendes Preis-Leistungs-Verhältnis. In Form einer gemischten Lösung, in der Kombination von Mirroring und Zeitpunkt-bezogenen Kopien ergänzt um einige Spezialfunktionen wie Fan-in- und Fan-out-Mirroring oder bidirektionales Mirroring, kommt heute kaum ein Anwender am Einsatz Array-basierter Backup- und Recovery-Lösungen vorbei.

Hans Schramm ist Brand Manager Storage bei Dell.

Weitere Informationen zu den Themen Backup, Continuous Data Protection und Datenreplikationssoftware finden Sie in der aktuellen Juni/Juli-Ausgabe unseres Fachmagazins STORAGE. Unser Tipp: „Host-Level-Replikationssoftware: Spieglein, Spieglein” ab Seite 48.

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 2005179 / Restore-Software)