Mit Power gegen den Blackout Disaster Recovery richtig gemacht

Autor / Redakteur: Alexander Graf* / Stephan Augsten

Schreckgespenst Stromausfall. Ein Notstromaggregat allein reicht da nicht, um die Firmen-IT zu schützen. Erst intelligente, automatische Anwendungen lassen Server geordnet herunter- und wieder hochfahren, ohne dass dabei wertvolle Daten verloren gehen.

Firma zum Thema

Eine Disaster-Recovery-Strategie sollte alle Eventualitäten berücksichtigen.
Eine Disaster-Recovery-Strategie sollte alle Eventualitäten berücksichtigen.
(Bild: iQSol)

Umstürzende Bäume reißen Leitungen ab, heftige Böen legen ganze Masten um. Herbststurm „Gonzalo“, vor seiner Atlantiküberquerung noch ein Hurrikan, fegte vergangenen Oktober über Deutschland, Österreich und die Schweiz hinweg und sorgte in vielen Regionen für längere Stromausfälle. Damit verschaffte der Sturm zahlreichen Unternehmen eine unfreiwillige Bewährungsprobe ihrer IT-Disaster-Recovery-Strategie.

Ohne genaue Details zu kennen, lässt sich dazu gewiss eines sagen: Nicht alle dürften den Ernstfall unbeschadet überstanden haben. Wie sich ein Stehaufmännchen aus jeder Lage wieder aufrichtet, so sollte sich die IT-Infrastruktur eines Unternehmens in Notsituationen verhalten. Die Resilienz, die Toleranz, die Widerstandsfähigkeit eines Systems gegenüber Störungen, ist ein gern verwendetes Schlagwort.

Wie sieht die Realität jedoch gerade in kleinen bis mittelständischen Betrieben aus? Ist man dort für einen in Europa gar nicht so unwahrscheinlichen, tagelangen „Blackout“ gerüstet, der durch Naturkatastrophen oder gezielte Cyberangriffe ausgelöst werden könnte?

Murphys Law

USV-Anlagen für eine unterbrechungsfreie Stromversorgung samt Überwachungsprogrammen sind sicher in den meisten Firmen vorhanden. Die Frage ist allerdings, ob diese im Ernstfall einen automatisiert ablaufenden Prozess und umfassende Übersicht bieten sowie ein konkretes Eingreifen erlauben.

Ist es möglich, auf Knopfdruck das Rechenzentrum herunterzufahren und wichtige Daten an einen sicheren Ort zu migrieren? Hat man bei regelmäßigen Disaster-Tests unter realen Bedingungen überprüft, ob alle Akkus wirklich funktionieren, welche Anwendungen wie genau herunter- und später wieder hochzufahren sind? Tests an einem ruhigen Sonntag werden vielleicht nicht die richtigen Ergebnisse bringen, die im Fall der Fälle bei einem Stromausfall an hektischen Werktagen auftreten.

„Alles, was schiefgehen kann, wird auch schiefgehen“, postuliert Murphys berühmtes Gesetz. Vorfälle, die eigentlich nicht passieren hätten dürfen, aber trotzdem eintraten, listet etwa das „

Resilienz Netzwerk Österreich“ in einer anonymisierten Murphy-Liste. Eine Fundgrube für IT-Verantwortliche für einen Check ihrer Vorkehrungen.

So sprang etwa in einer öffentlichen Dienststelle bei einem Stromausfall das Notstromaggregat nicht an – wegen Überlast. Ein Mitarbeiter der Betreuungsfirma fand nach einiger Zeit den Grund: Um Heizkosten zu sparen, waren im Gebäude die Raumtemperaturen gesenkt worden. Mitarbeiter steckten deshalb Heizstrahler an, auch an notstromversorgte Steckdosen. Hätte man regelmäßige Tests durchgeführt, wäre dieser Fehler schon früher aufgefallen.

In einem Krankenhaus wurde zwar das Stromaggregat periodisch getestet, aber immer nur mit Leerlast. Als der Strom wegen eines durch Bauarbeiten hervorgerufenen Kabelschadens tatsächlich ausfiel, funktionierte das Aggregat unter Volllast nicht. Noch dazu war der Hauptmaschinist zu diesem Zeitpunkt nicht da. Ersatz für ihn gab es übrigens nicht.

Automatisch gesteuerter Shutdown

Um Murphys Gesetz im Ernstfall widerlegen zu können, ist ein geregeltes Herunterfahren aller Server, Systeme und Applikationen gefragt, damit Schäden und Datenverluste verhindert werden können. Das alleine reicht jedoch noch nicht, wie etwa eine Firma im Rahmen ihres jährlichen Disaster-Tests samt Stromabschaltung feststellen musste: Bei mehreren 100 Servern und einer USV-Dauer von maximal einer Stunde war der Shutdown manuell nicht durchführbar.

Die maximal tolerierbare Ausfallzeit sollte bei der Disaster-Recovery-Strategie genau kalkuliert sein.
Die maximal tolerierbare Ausfallzeit sollte bei der Disaster-Recovery-Strategie genau kalkuliert sein.
(Bild: iQSol)

Dies lässt sich nur mit einer automatischen Steuerung, die ebenso das geregelte Hochfahren der Systeme beherrscht, erfolgreich bewerkstelligen. Denn im Notfall muss die IT-Abteilung binnen Minuten richtige Entscheidungen treffen können. Gerade das gezielte Wiederanlaufen der IT-Infrastruktur ist in weiterer Folge eine besondere Herausforderung. Mitunter muss das System dabei zunächst davon abgehalten werden, sich wieder zu aktivieren: Gibt es mehrere Stromausfälle etwa kurz hintereinander, wäre ein zwischenzeitliches Hochfahren vermutlich „tödlich“.

Wichtiges von Unwichtigem zu trennen, ist ein weiterer Aspekt. In einem Unternehmen sorgt zum Beispiel ein heißer Sommer für Probleme mit der nötigen Klimatisierung. Deshalb sollen beim Ausfall der Klimaanlage alle unwichtigen Server heruntergefahren werden. Die entscheidenden Server jedoch müssen in ein zweites Rechenzentrum verschoben werden.

Das funktioniert nur mit einem zentralen Power-Management, das physikalische Kontakte und Sensoren genauso im Griff hat wie USV-Geräte und virtuelle Anwendungen – mit einem logikbasierten Failover-Ablauf als Hauptbestandteil. Denn um die oft bestehenden Abhängigkeiten der unterschiedlichen Server-Systeme zueinander berücksichtigen zu können, bedarf es eines ausgeklügelten Shutdown-Procederes.

Eine instabile Stromversorgung erfordert in einem Betrieb etwa den Einsatz der USV-Anlage. Nach einigen Stunden muss jedoch alles heruntergefahren werden. Ist die Stromversorgung wieder kontinuierlich verfügbar, sollen die IT-Systeme automatisch in der umgekehrten Reihenfolge des Shutdowns hochgefahren werden.

Zentraler Überblick, autarke Außenstellen

Niederlassungen in den Ländern Osteuropas bedeuten mitunter immer noch ein gewisses Abenteuer, regelmäßige Stromausfälle inklusive. Weil die Bandbreite der Standleitungen oft limitiert ist, betreibt ein dort engagiertes Unternehmen in seinen Außenstellen lokale Server. Der Plan: Wenn nötig, sollen die Systeme von der Zentrale aus herunter- und bei Bedarf wieder hochgefahren werden. Und dies ohne Rücksicht darauf, ob die Standleitung verfügbar ist oder nicht.

Das lässt sich mit jeweils autark arbeitenden Anwendungen erreichen. Änderungen an deren Konfiguration werden nur in der Zentrale vorgenommen und periodisch mit den Außenstellen synchronisiert. Die jeweiligen Logs werden hingegen an die Zentrale übertragen, damit man von dort aus einen generellen Überblick hat. Permanent wird der Status von der Außenstelle an die Zentrale übermittelt.

Schaltet die Niederlassung auf Batteriebetrieb, wird dort der Shutdown-Prozess gestartet. Völlig autark, wenn etwa die Standleitung ausgefallen ist. Um Redundanz zu erzielen, lassen sich die unabhängigen Applikationen zweier Außenstellen miteinander verbinden. Fällt so eine aus, übernimmt die andere die Führung.

Umfassende Sicherheit ist nicht billig

Umfassende, intelligente Sicherheitslösungen für die Unternehmens-IT sind nicht unbedingt günstig. Deren Einsatz um Vorfälle zu verhindern, die vielleicht gar nie eintreten wären, muss dem Management erst plausibel gemacht werden.

Bestes Argument dafür bleibt wohl der Hinweis, dass im Krisenfall ein geordnetes Handeln und ein schnelles Wiederanlaufen des IT-Systems entscheidend für das Überleben des ganzen Betriebes sein können. Wie das Stehaufmännchen, dass sich nach dem Sturm wieder auf die Beine stellt, als sei nichts gewesen.

* Alexander Graf ist Managing Director bei der Iqsol GmbH.

(ID:43088652)