Suchen

„Wiederbelebung“ nach Systemabsturz Entscheidend ist die RTA

| Autor / Redakteur: M.A. Jürgen Höfling / Julia Schmidt

Die oft schmerzhafte Diskrepanz zwischen Wunsch und Wirklichkeit spiegelt sich in den beiden Metriken Recovery Time Objective (RTO) und Recovery Time Actual (RTA) – Tipps für eine Annäherung.

Firma zum Thema

Eine Wiederbelebung nach einem Systemabsturz kann auch in der IT heikel sein, vor allem wenn nicht regelmäßig Notfallübungen gemacht worden sind.
Eine Wiederbelebung nach einem Systemabsturz kann auch in der IT heikel sein, vor allem wenn nicht regelmäßig Notfallübungen gemacht worden sind.
(Bild: Martin Büdenbender_pixelio.de)

Rechenzentren sind kritische Infrastrukturen, das ist spätestens seit den weltweiten Kontaktbeschränkungen der vergangenen Monate klar. Ohne dieses digitale Rückgrat hätte das (aus guten Gründen) verordnete Herunterfahren der persönlichen geschäftlichen Kontakte zu einem wirtschaftlich-sozialen Chaos geführt.

Kritische Infrastrukturen müssen auch unter außergewöhnlichen Belastungen zuverlässig arbeiten. Havarien sollten durch vorbeugende Maßnahmen möglichst vermieden werden. Es darf aber nicht außer Acht bleiben, dass sie eintreten können und dass in diesem Fall effiziente Prozesse definiert sein müssen, die die Infrastruktur möglichst schnell wiederherstellen.

Für Rechenzentren jeglicher Größe sind deshalb Notfallpläne genauso wichtig wie die richtige Serverdimensionierung und die richtigen Software-Pakete. Mehr noch: ein Notfallplan (Disaster-Recovery-Plan) muss unbedingt in regelmäßigen, nicht zu weiten Abständen durch eine Notfallübung überprüft und gegebenenfalls angepasst werden. Nur dann wird ersichtlich, ob der Plan auch funktioniert und das abgestürzte System in der vorhergesehenen Zeit reanimiert werden kann.

Auch bei Maschinenunfällen zählt jede Minute für Wiederbelebungsversuche, und diese müssen darüber hinaus professionell sein. Um es zugespitzt zu formulieren: Wenn die entsprechenden Sicherungskopien irgendwo „jwd“ untergebracht sind oder wenn die Wiederherstellungsprozesse nicht mit ein paar Klicks zu tätigen sind, sondern erst Handbücher studiert werden müssen, kommt der „Patient“ nicht mehr auf die Beine.

Die Metrik RTO besagt: Wie lange darf die Systemwiederherstellung maximal dauern?
Die Metrik RTO besagt: Wie lange darf die Systemwiederherstellung maximal dauern?
(Bild: joehertvik.com)

RTO-RTA-Lücke möglichst vollständig schließen

Wunsch und Wirklichkeit liegen auch bei der Wiederbelebung von Rechenzentrumsequipment nach Systemabstürzen nicht selten weit auseinander. Zwischen der Zeit, in der die Systeme wieder laufen sollten, damit kein irreparabler geschäftlicher Schaden entsteht (Recovery Time Objective, RTO), und der Zeit, in der die Systeme tatsächlich wieder laufen (Recovery Time Actual, RTA), klafft oft eine riesige Lücke. Rechenzentrumsverantwortliche müssen alles dafür tun, diesen RTO-RTA-Gap zu minimieren, wenn nicht ganz zu schließen.

Die Metrik RTA besagt: Wie lange dauert es tatsächlich, bis das System wieder läuft?
Die Metrik RTA besagt: Wie lange dauert es tatsächlich, bis das System wieder läuft?
(Bild: joehertvik.com)

Die RTO-RTA-Lücke kann zwar anhand von qualitativen Betrachtungen irgendwie abgeschätzt werden, aber letztlich nur „irgendwie“. Genaue Erkenntnisse über die Diskrepanz zwischen Vorgabe und realer Welt liefern zuverlässig nur Katastrophenschutzübungen „in echt“. Denn die Ursachen für die RTO-RTA-Lücke können sehr vielfältig sein:

  • Wenn die Erstellung der Sicherungskopien unhandlich beziehungsweise mit sehr viel Handarbeit verbunden ist, wird sie öfter unterlassen; das hat unangenehme Folgen, wenn das Backup für die Wiederherstellung benötigt wird.
  • Wenn das System beim Speichern von Daten nicht automatisch „Doppler“ erkennt (data deduplication), zahlt man bei der Wiederherstellung die Rechnung in Form überlasteter Netzwerke.
  • Wenn ein Wiederherstellungssystem auf der Expertise und den Programmen mehrerer (vieler?) Hersteller beruht, entsteht im Ernstfall schnell Beratungschaos.
  • Wenn die Recovery-Lösung sehr kompliziert ist und die entsprechenden Experten im Notfall gerade nicht verfügbar sind, ist der „Notfall im Notfall“ vorprogrammiert.
  • Wenn sich – warum auch immer – nur ein Teil des Systems wiederherstellen lässt, kommt eine fatale Unwucht in die Betriebsabläufe; ein Teil der Mitarbeiter kann wieder arbeiten, ein anderer Teil muss Däumchen drehen.
  • Wenn die Sicherungskopien vom Produktivsystem im Rechenzentrum örtlich getrennt sind und nicht per Datenleitung überspielt werden können, entsteht ein zeitliches Problem, besonders wenn nach einer Naturkatastrophe Zufahrtswege nicht passierbar sind.

Manche dieser Punkte klingen vielleicht etwas „schräg“, aber es kommt alles vor. Das größte Problem ist aber immer noch die Nicht-Einhaltung regelmäßiger und situationsgerechter Notfallübungen, weil man im Tagesgeschäft steht und vermeintlich Wichtigeres zu tun hat.

Nicht zu schnell melden, dass „alles wieder läuft“

Aus den oben angeführten Punkten der Problemdiagnose, wo und warum RTO und RTA auseinanderdriften, ergibt sich ganz unmittelbar die Therapie:

  • Eine Wiederherstellungslösung aus einer Hand ist einfacher zu handhaben als eine zusammengestückelte Lösung. Vermutlich ist eine Servicelösung aus der „Steckdose“ in vielen Fällen besonders gut geeignet.
  • Physische Sicherungskopien sind gut und wichtig, sollten aber durch eine virtualisierte Spiegelung ergänzt werden.
  • Das Backup sollte möglichst vollständig automatisiert werden, dann gibt es im Ernstfall keine veralteten oder unvollständigen Sicherungen.
  • Wiederherstellungen mit einem einzigen Knopfdruck sind vielleicht nicht so häufig möglich, aber wenn es möglich ist, dann sind sie das Beste überhaupt.

Die Metrik RPO besagt: Wie viele Daten dürfen maximal verloren gehen?
Die Metrik RPO besagt: Wie viele Daten dürfen maximal verloren gehen?
(Bild: joehertvik.com)

In der Regel sind Daten und Applikationen unterschiedlich wichtig für die geschäftlichen Prozesse. Die Wiederherstellung des Servers, auf dem die Verzeichnisdienste laufen, dürfte zum Beispiel wichtiger sein als die Wiederbelebung der Druck- oder Entwicklungs-Server. Und zwischen diesen Extremen gibt es jede Menge Aufgaben zur sinnvollen Priorisierung von Daten und Applikationen.

Die Metriken RPO, RTO und RTA sollten für eine effiziente Systemwiederherstellung gut zusammenspielen.
Die Metriken RPO, RTO und RTA sollten für eine effiziente Systemwiederherstellung gut zusammenspielen.
(Bild: joehertvik.com)

Insgesamt darf man sich nicht vorschnell am Ziel der Wiederherstellung wähnen. So ist beispielsweise die Registrierung der verschiedenen virtuellen Maschinen nur der einfachere Teil der Wiederherstellungsoperation. Viel diffiziler und zeitaufwendiger sind Aufgaben wie die Erneuerung der Einstellungen der virtuellen Maschinen auf den neuen „Sites“, beispielsweise die Änderung der MAC- und IP-Adressen, das korrekte Aufsetzen am Arbeitspunkt, bis zu dem die Daten konsistent sind (Recovery Point Objective, RPO), und die Sicherstellung der wechselseitigen Kommunikation aller Applikationen untereinander. Erst wenn diese Aufgaben vollständig erledigt sind, sollte den Fachbereichen gemeldet werden, dass „alles wieder läuft“.

(ID:46651264)

Über den Autor