Notfallschutz für virtuelle Server und Anwendungen Wenn ein Backup nicht mehr reicht

Autor / Redakteur: Axel Dunkel / Nico Litzel

Bei aller Komplexität – Virtualisierung macht das Leben von IT-Administratoren auch leichter! Was früher Stunden dauerte, nämlich einen neuen Server einrichten, Betriebssystem und Anwendungen installieren, Backups einspielen etc., ist im Zeitalter der Virtualisierung oft in wenigen Minuten erledigt, denn mit einem Image-Backup kann bei Bedarf das komplette System mit ein paar Mausklicks wiederhergestellt werden.

Firma zum Thema

Der Autor: Axel Dunkel ist Geschäftsführer des auf Hosting und IT-Services spezialisierten Unternehmens Dunkel GmbH.
Der Autor: Axel Dunkel ist Geschäftsführer des auf Hosting und IT-Services spezialisierten Unternehmens Dunkel GmbH.
(Bild: Dunkel GmbH)

Die Technik mag sich geändert haben, die Grundprinzipien für das Notfallmanagement bleiben die gleichen. Ein Backup soll, wie der deutsche Name „Datensicherung“ schon sagt, vor Datenverlust schützen. Die Verfügbarkeit der Daten hat viele Feinde: kaputte Festplatten, Softwarefehler oder einfach nur Schussligkeit. Backups sind auch der Retter in der Not, wenn zum Beispiel der Systemzustand eines virtuellen Servers auf einen früheren (noch fehlerfreien) Zeitpunkt zurückgesetzt werden soll.

Für kleine Notfälle dieser Art sind für gewöhnlich lokale Backups, auf die man schnell zugreifen kann, die beste Lösung. Ein lokales Backup vor Ort ist wie ein Zweitschlüssel in der Schublade, wenn man einen dringenden Termin hat und seinen Hauptschlüssel nicht mehr finden kann.

Bildergalerie

Doppelt hält besser – auch beim Backup

Doch was passiert, wenn in der größten Not auch die Datensicherung nicht mehr verfügbar ist? Getreu Murphys Gesetz geht manchmal alles schief, was schiefgehen kann – und manchmal alles gleichzeitig. Wenn in einem Notfall die IT-Systeme samt Datensicherung unbrauchbar werden, sind lokale Backups so viel wert wie der Zweitschlüssel, den man zusammen mit dem Hauptschlüssel in die gleiche Tasche gepackt hat. Geht die Tasche verloren, kommt man nicht mehr in seine Wohnung. Es sei denn, man hat noch einen Ersatzschlüssel an einem sicheren Ort oder bei einer vertrauensvollen Person deponiert.

Für immer mehr Firmen ist dieser Ort die „Cloud“, wenn es um die Sicherung geschäftsrelevanter Daten geht. In manchen Ohren mag das wie ein Widerspruch klingen, wird doch die Cloud oft in einem Atemzug mit Sicherheitsbedenken genannt. Dabei gibt es zahlreiche Anwendungen, bei denen ein Cloud Service durchaus für mehr Sicherheit sorgen kann und die Offsite-Speicherung von Backups gehört auf jeden Fall dazu.

Einige Hersteller von Backup-Software, speziell für virtuelle Umgebungen, haben deshalb die Option einer Cloud-Speicherung bereits in ihre Produkte integriert, einschließlich Datenverschlüsselung – etwa PHD Virtual oder Veeam.

Wie geht es in einem echten Notfall weiter?

„Hauptsache die Daten sind gesichert, dann kann uns nichts passieren.“ Das ist ein oft gehörter Satz, wenn es um konkrete Maßnahmen für das IT-Notfallmanagement einer Firma geht. Die Daten sind sicher, doch sind sie auch verfügbar? Verfügbar heißt, die Anwender können mit den Daten arbeiten, die Kunden können Waren bestellen und Anfragen von Geschäftspartnern können beantwortet werden. Da heute viele Geschäftsprozesse von einer funktionierenden IT abhängig sind, ist deren Verfügbarkeit beziehungsweise Wiederverfügbarkeit nach einem Ausfall der zentrale Punkt im Notfallmanagement.

Das Bundesamt für Sicherheit in der Informationstechnik (BSI) unterscheidet eine Störung, die ohne größere Folgen wieder behoben werden kann, von den wesentlich folgenreicheren Ereignissen Notfall, Krise und Katastrophe. Dabei ist bereits ein Notfall ein Schadensereignis, bei dem der Geschäftsbetrieb stark beeinträchtigt ist und hohe bis sehr hohe Schäden entstehen.

Noch sind Naturkatastrophen eher selten

Naturkatastrophen wie Überschwemmungen oder schwere Stürme sind eher selten, auch wenn ihre Wahrscheinlichkeit klimabedingt in Zukunft zunehmen wird. Viel häufiger führen aber laut einer Studie der Firma Zerto Hardwareausfälle und Stromunterbrechungen zum Ausfall eines Rechenzentrums. Wichtige Geschäftsanwendungen sind dann für längere Zeit nicht verfügbar.

Wenn Daten und Systeme nach einem größeren Schaden wiederhergestellt werden müssen, sind Image-basierte Backups in der Cloud oft der einzige Rettungsanker. Allerdings liegen sie jetzt meilenweit entfernt im Rechenzentrum des Cloud Providers. Wenn für eine komplette Wiederherstellung mehrere hundert Gigabyte über das Internet zurückgespielt werden sollen, dauert es Tage, bis die Systeme wieder betriebsbereit sind. Das Cloud-Backup ist dann, um bei unserem Vergleich zu bleiben, wie ein Ersatzschlüssel für die Münchner Wohnung, den man bei der Oma in Hamburg hinterlegt hat. Es dauert also eine ganze Weile, bis man wieder an seine Sachen kommt.

Um entscheiden zu können, ob ein Cloud Backup als Notfalllösung ausreicht, muss im Unternehmen zuerst die Frage beantwortet werden: Wie lange kommen wir ohne unsere IT-Systeme aus? Die Antwort kann, je nach Firma und Anwendung, sehr unterschiedlich ausfallen.

In einer Befragung von 300 mittelständischen Betrieben, die Techconsult im vergangenen Jahr für HP durchgeführt hat, wurde die maximale Ausfallzeit kritischer IT-Systeme, die der Geschäftsbetrieb verkraften kann, im Mittel mit 4,7 Stunden angegeben. Die Kosten für einen Ausfall schlugen im Schnitt mit 25.000 Euro pro Stunde zu Buche. Solche Firmen brauchen eine Disaster-Recovery-Strategie, die ihnen nicht nur die Wiederherstellung ihrer IT-Systeme nach einem Notfall ermöglicht, sondern auch eine Fortsetzung des Geschäftsbetriebes für die Zeit, in der die eigenen Systeme nicht verfügbar sind.

Backup und Disaster Recovery im Vergleich

Backup und Disaster Recovery erfüllen unterschiedliche Funktionen (siehe Tabelle in der Bildergalerie). Wenn es darum geht, einen gelöschten Ordner wiederherzustellen oder den Systemzustand von vor drei Tagen, dann ist ein Backup unverzichtbar. Ein Unternehmen, das in einem Notfall sowohl den Datenverlust als auch die Ausfallzeit geschäftskritischer Systeme minimieren will, sollte seine Daten in ein Backup-Rechenzentrum replizieren, in dem bei Bedarf Ersatzsysteme aktiviert werden können.

Je nach Betriebsbereitschaft unterscheidet man drei Typen von Backup-Standorten:

Hot Site

Alles, was man braucht, ist im Backup-Rechenzentrum bereits vorhanden und jederzeit betriebsbereit. Die Daten werden kontinuierlich repliziert, sodass der Ersatzstandort bei Bedarf innerhalb weniger Minuten bis Stunden produktiv sein kann.

Warm Site

Hier sind Hardware und Netzwerk vorhanden, aber in einem ausgeschalteten, nicht direkt betriebsbereiten Zustand. In der klassischen IT müssten erst die Backups eingespielt und der Ersatzstandort fertig konfiguriert werden, was je nach Anzahl und Größe der Systeme bis zu einigen Tagen dauern kann. Mit einem virtuellen Datacenter dauert das Umschalten je nach eingesetzter Technik nur noch Minuten bis wenige Stunden.

Cold Site

Diese Variante beinhaltet kaum mehr als die Garantie, an einem alternativen Standort seine Ersatzsysteme aufbauen und betreiben zu können. In einem Notfall müssen Hard- und Software erst am Backup-Standort installiert oder von einem Provider bereitgestellt werden. Anschließend werden die Daten und Anwendungen aus den Backups rekonstruiert und die Netzwerkverbindungen konfiguriert.

Vorgaben für das Disaster Recovery

Wenn ein Unternehmen nach einer passenden Notfall-Lösung für seine IT-Systeme sucht, sind zwei Zielvorgaben besonders entscheidend: RTO (Recovery Time Objective) und RPO (Recovery Point Objective). Die Zeitspanne, innerhalb der ein Geschäftsprozess nach einem Ausfall wiederhergestellt sein muss, nennt das BSI die maximal tolerierbare Ausfallzeit (MTA; siehe Grafik in der Galerie). In den meisten Fällen entspricht sie dem Recovery Time Objective (RTO)und ist ein wichtiger Service Level für die Notfallmaßnahmen eines Unternehmens. So bedeutet zum Beispiel ein RTO von vier Stunden, dass nach einem Ausfall die IT-Systeme spätestens nach vier Stunden wieder soweit funktionieren, dass auch die Geschäftsprozesse wiederhergestellt sind.

Wenn, wie bei größeren Ausfällen üblich, zunächst ein Notbetrieb aktiviert wird, kann die Zeit bis zur Aufnahme des Notbetriebs (Wiederanlaufzeit) identisch mit dem RTO sein. Voraussetzung ist, dass der Notbetrieb die Geschäftsprozesse soweit unterstützt, dass keine finanziellen Schäden entstehen. Um das gewährleisten zu können, müssen auch für den Notbetrieb Mindestanforderungen hinsichtlich Performance, Verfügbarkeit sowie Sicherheit definiert werden.

Zielvorgabe für einen maximal zulässigen Datenverlust

Unter dem Recovery Point Objective (RPO) versteht man die maximale Zeitspanne, innerhalb der Daten unwiederbringlich verloren gehen dürfen. In der Praxis ist es der Zeitraum zwischen zwei Datensicherungen oder Replikationen. RPO ist ebenfalls ein Service Level und wird als Zielvorgabe für den maximal zulässigen Datenverlust benutzt. Bei einem RPO von einer Stunde sollte zum Zeitpunkt des Systemausfalls die letzte Datensicherung in keinem Fall länger als eine Stunde zurückliegen. Es gehen also nur maximal die Daten der letzten 60 Minuten verloren. Wenn ein Unternehmen nur einmal täglich seine Daten sichert, riskiert es im Ernstfall den Verlust der Daten eines ganzen Arbeitstages.

Die Anzahl der täglichen Backups lässt sich auch nicht beliebig erhöhen. Je kleiner der gewünschte RPO, desto größer der Bedarf an einer Replikationslösung. Mit einer Replikation sollen identische Kopien erzeugt werden – in der Regel an einem anderen Standort – ohne den Betrieb am primären Standort zu beeinträchtigen. Die Aufgabe einer Disaster-Recovery-Lösung ist es, mithilfe der replizierten Daten wichtige Anwendungen auf den Ersatzsystemen möglichst schnell und ohne Datenverlust zu aktivieren (Failover) und den Normalbetrieb der Produktivsysteme wiederherzustellen (Failback).

Das virtuelle Backup-Rechenzentrum in der Cloud

Die größte Flexibilität bieten Hypervisor-basierte Replikationslösungen. Sie sind Storage-agnostisch, das heißt, am Produktiv- und Recovery-Standort können unterschiedliche Speichersysteme beliebiger Hersteller verwendet werden. In der Regel müssen auch keine Agenten auf dem Server installiert werden. Je nach eingesetzter Virtualisierungssoftware können Unternehmen zwischen den hauseigenen Produkten des Herstellers und diversen Lösungen von Drittanbietern wählen.

Unternehmen mit VMware-vSphere-Infrastrukturen steht beispielsweise der vCenter Site Recovery Manager (SRM) zur Verfügung. Die Replikationslösung des Herstellers, vSphere Replication, ist bereits im Lieferumfang der meisten Lizenzen enthalten. Voraussetzung für den Einsatz des Recovery Managers ist allerdings eine vollwertige vSphere-Infrastruktur an einem zweiten Standort, der somit als „Hot Site“ Backup-Standort fungiert.

Backup-Ressourcen in der Cloud sind wesentlich preiswerter

Den meisten Unternehmen, die nicht über den Luxus von zwei Rechenzentren verfügen, blieb in der Vergangenheit nur die Option, für viel Geld ein Backup-Rechenzentrum zu mieten oder eben zu hoffen, dass nichts passiert. Heute können sie mit den Produkten von Spezialanbietern und gemieteten Backup-Ressourcen in der Cloud wesentlich preiswerter eine für sie passende Disaster-Recovery-Lösung realisieren. So bieten die bereits erwähnten Hersteller Veeam und PHD Virtual Kombinationsprodukte für Backup und Replikation.

Ergänzend zum lokalen oder Cloud-Backup können identische Kopien ausgewählter virtueller Maschinen in der Cloud oder einem anderen Standort gespeichert und fortlaufend aktualisiert werden. Eine kontinuierliche Replikation reduziert nicht nur den Datenverlust im Notfall, die Replicas befinden sich auch in einem sofort startfähigen Zustand. Sofern eine sichere und vorkonfigurierte Netzwerkinfrastruktur vorhanden ist, kann bei Bedarf auf die Ersatzsysteme in der Cloud „umgeschaltet“ werden, bis das primäre Rechenzentrum wieder betriebsbereit ist.

So bietet zum Beispiel der Hersteller Zerto mit seinem Produkt „Virtual Replication“ eine vollwertige Disaster-Recovery-Lösung für VMware-Infrastrukturen, die direkt in den vCenter Server integriert wird. Das hat den Vorteil, dass der Kunde sämtliche Prozesse selbst steuern kann, auch wenn die Replikation zu einem Cloud Provider erfolgt. Er kann Replikationen starten und stoppen, hat jederzeit RPO und RTO im Blick und er kann das Failover selbst auslösen oder testen.

RPOs im Sekundenbereich

Die kontinuierliche Replikation arbeitet fast in Echtzeit und ermöglicht so RPOs im Sekundenbereich. Dabei kommt die Software komplett ohne Snapshots aus und beeinträchtigt deshalb auch nicht die Performance der Anwendungen. Da Zerto Virtual Replication auch den VMware vCloud Director unterstützt, kann der Service mit einem Virtual Data Center bei einem vCloud Provider kombiniert werden. Damit steht dem Kunden ein fertig konfiguriertes Ersatz-Rechenzentrum zur Verfügung, das auch die Sicherheitsanforderungen einer Produktivumgebung erfüllt. Im Notfall sind die Ersatzsysteme in kürzester Zeit betriebsbereit, ohne dass erst stundenlang Netzwerkkonfigurationen geändert oder Backups eingespielt werden müssen.

Um noch ein letztes Mal zu unserem Vergleich zurückzukehren: Ein Backup-Rechenzentrum ist wie eine Ersatzwohnung mit identischer Ausstattung, in der alles Wichtige noch einmal als Kopie vorhanden ist. Im Gegensatz zu einer Wohnung ist ein virtuelles Datacenter aber wesentlich platzsparender, weil ein Teil der Ressourcen erst bei Bedarf vollständig aktiviert wird.

Die meisten Replikationsprodukte bieten auch eine sogenannte „Seeding-Funktion“, das heißt, größere Maschinen können auf physische Speichermedien kopiert und zum Cloud Provider geschickt werden. Dann muss nur noch das Delta über das Internet synchronisiert werden. Nicht ganz unwichtig ist auch die Option, eine bestimmte Anzahl Wiederherstellungspunkte speichern zu können, denn manchmal lässt sich ein System mit dem zuletzt replizierten Stand nicht fehlerfrei starten.

Tests und Simulationen

Das Wichtigste beim Sichern und Replizieren der Daten ist aber deren Wiederherstellung. Genauso wie man regelmäßig seine Backups testen sollte, braucht man auch für das Disaster Recovery eine Möglichkeit, den Ernstfall und das Failover simulieren und testen zu können. Ohne regelmäßige Tests ist man sonst trotz aller Investitionen schnell wieder beim Prinzip Hoffnung. Eine ausführlichere Beschreibung von fünf Disaster-Recovery-Produkten für VMware finden Sie in einem Beitrag im Dunkel Blog.

(ID:42678452)