Suchen

Benötigte Speicherkapazität: 15 TB – jeden Tag Klimawandel und Big Data: ein Speichersystem ohne Grenzen für die Erdbeobachtung

| Autor / Redakteur: Tatjana Müller* / Dr. Jürgen Ehneß

Was hat sich durch den Klimawandel auf der Welt verändert? Was bedeutet das für die Menschen? Welche Maßnahmen sind wichtig, um den Klimawandel zu stoppen – oder um zumindest seine Folgen zu bewältigen? Diese Fragen stehen nicht erst seit Greta Thunberg im Fokus des öffentlichen Interesses und werden auch in Zukunft eine zentrale Rolle spielen.

Firmen zum Thema

Den Klimawandel eindämmen – Grundlage ist das Sammeln und Speichern von Daten.
Den Klimawandel eindämmen – Grundlage ist das Sammeln und Speichern von Daten.
(Bild: © jozsitoeroe - stock.adobe.com)

Aktuelle Studien zum Thema gibt es zahlreich: Diese zeigen unter anderem, dass die Menge an Kohlendioxid, die ausgestoßen wird, von Jahr zu Jahr ansteigt und immer höhere Temperaturen zu Hitzewellen und Luftverschmutzung führen, die am Ende Auswirkungen auf die Gesundheit der Menschen haben.

Was genau kann man aber nun tun, um den Klimawandel zu begreifen und zu fassen? Das Earth Observation Data Centre (EODC) beantwortet diese Frage folgendermaßen: Satellitendaten und Bodenbeobachtungen sammeln und speichern, langfristig vergleichen und analysieren – Big Data für die Klima- und Umweltforschung. Doch wie genau gelingt das auf technischer Ebene? EDV-Design, ein Informationstechnologie-Unternehmen aus Wien, hat sich im Auftrag der TU Wien und des EODC dieser Herausforderung gestellt.

EODC: Gründung eines Erdbeobachtungszentrums

Das EODC wurde 2014 von der TU Wien, der Zentralanstalt für Meteorologie und Geodynamik (ZAMG), Firmenpartnern und einzelnen Wissenschaftlern am Standort Arsenal in Wien gegründet. Mit dem EODC schuf man ein Erdbeobachtungsdatenzentrum, in dem eine mächtige, kollaborative IT-Infrastruktur zu finden ist, welche die Archivierung, Prozessierung und Verteilung von Sentinel-Satellitendaten möglich macht. Das große Ziel des EODC ist: Diese Daten zu speichern, um sie noch in ferner Zukunft der Klimaforschung – also Unternehmen, für wissenschaftliche Zwecke oder auch der interessierten Öffentlichkeit – zur Verfügung stellen zu können.

Den Klimawandel zu beobachten, bedeutet in diesem Fall konkret: Satelliten umkreisen die Erde und machen Aufnahmen. Diese Bildinformationen geben Aufschluss über die Erdveränderungen, wie zum Beispiel: Wie sah der Gletscher noch vor einem Jahr aus? Wie steht es um den Meeresspiegel an Stelle X? Und wie ist es um die Schneelage an Ort Y bestellt? Die Gebiete werden regelmäßig von den Satelliten erfasst – und anhand der Aufnahmen lassen sich genau diese Fragen beantworten, Vergleiche ziehen und Prognosen aufstellen. Zum Beispiel sind anschließend Umsiedlungspläne auf Inseln oder an Küstengebiete möglich.

Das große Ziel: ewig verfügbare Daten

Je mehr Informationen zusammenkommen, umso granularer können die Analysen und Auswertungen für die Klima- und Umweltforschung erfolgen. Dieser nie endenden Erdbeobachtung stand auf technischer Ebene jedoch eine Herausforderung im Weg: die Frage, wie und wo man diese endlose Datenmasse speichern könne – ohne sie überschreiben zu müssen und dabei stets auf sie zugreifen zu können. Nicht zuletzt auch, weil die Technik immer weiter voranschreitet und bessere Bildauflösungen, Software-Updates sowie Geo-Referenzierungen der Aufnahmen immer mehr Speicherplatz erfordern.

Die bereits bestehenden Archive verfügten nicht über genügend Speicherplatz, um dem großen Ziel des EODC gerecht zu werden. „Bei einem Speicherbedarf von 15 bis 25 Terabyte pro Tag konnte man die Rohdaten vielleicht für wenige Tage speichern, bevor sie überschrieben wurden“, sagt Martin Vlcsek, Prokurist bei EDV-Design. „Angesichts einer 24/7-Informationsflut durch die Sentinel-Satelliten war schnell klar, dass diese Kapazität für eine langfristige Datenspeicherung nicht ausreicht.“

Ein Speicher ohne Grenzen

Man benötigte also von Anfang an ein immens großes Speichersystem, das sich zudem dynamisch und ohne Unterbrechung vergrößern lässt. Der Auftrag für ein entsprechendes kosteneffizientes Speicherkonzept wurde in einem speziellen und sehr aufwändigen Verhandlungsverfahren mit dafür in Frage kommenden Firmen vergeben. Neben der Anforderung, ein großes Datenvolumen in nur einem System unterzubringen, musste sich der zukünftige Dienstleister auch um die hochperformante Anbindung an den Supercomputer VSC (Vienna Scientific Cluster) kümmern können.

Wolfgang Wagner, Leiter Department für Geodäsie und Geoinformation an der TU Wien.
Wolfgang Wagner, Leiter Department für Geodäsie und Geoinformation an der TU Wien.
(Bild: WILKE)

„Zudem wünschten wir uns eine moderne Architektur mit kurzen Datenwegen – im Idealfall alles in einem Gebäude –, um die schnelle und ständige Verfügbarkeit der Rechenressourcen zu gewährleisten. Es sollte keine Grenzen geben, aber trotzdem ein gutes Preis-Leistungs-Verhältnis bestehen“, erklärt Wolfgang Wagner, Leiter des Departments für Geodäsie und Geoinformation an der TU Wien. EDV-Design ist langjähriger IBM-Business-Partner im Bereich Storage und auf High-Performance-Computing sowie Hochverfügbarkeit spezialisiert. Mit ihrem Konzept eines Speichers ohne Grenzen konnte EDV-Design im Jahr 2016 in dem höchst kompetitiven Auswahlverfahren überzeugen. Unter anderem auch, weil Soft- und Hardware von einem einzigen Hersteller stammten. „Wir liefern eine solide Basis, sowohl im technischen als auch im Service-Bereich, auf die man immer zurückgreifen kann. Dieses Alles-aus-einer-Hand-Konzept ist der Hauptvorteil für unsere Kunden“, sagt Vlcsek.

Gigantisches Storage-System ergänzt den Supercomputer VSC

In einem ersten Schritt wurde an der TU Wien eine Speicherkapazität von zwei Petabyte für Satellitendaten von der gesamten Erdoberfläche aufgebaut und an den VSC angebunden. Die Infrastruktur des EODC besteht insgesamt aus drei Komponenten: einer Cloud-Umgebung (OpenStack), einer Prozessierungseinheit (derzeit VSC-3) und dem Storage für das Speichern und Archivieren der Rohdaten sowie der prozessierten Daten. „Wir empfahlen aus technischen und preislichen Gründen, Tier-0 und Tier-1 zusammenzulegen, um somit ein administrativ vereinfachtes Gesamtsystem umzusetzen“, erläutert Martin Vlcsek. Tier-0 und Tier-1 sind mit einer Gesamtkapazität von 2 Petabyte netto mittels ESS-System aufgebaut. Dieses ist sowohl über mehrfache 10-Gigabit-Ethernet-Connections mit der EODC-OpenStack-Cloud-Umgebung als auch über ein Highspeed-Netzwerk mit mehreren Infiniband-Connections zum VSC-3-Cluster der TU Wien verbunden.

Das ESS-System schafft einen Datendurchsatz von bis zu 26 Gigabyte pro Sekunde (12 FDR Infiniband). „Als zweites beziehungsweise drittes Tier in dieser Storage-Lösung verwenden wir eine Enterprise-Tape-Library. Das gesamte System verwendet IBM Spectrum Scale und Spectrum Protect für das automatisierte Information Lifecycle Management. Aktuell besteht eine Gesamtnettokapazität von 12 Petabyte“, führt Vlcsek weiter aus.

Von Planung bis Policy

„Die Vorbereitung beziehungsweise Vorarbeit für das Projekt war das Wichtigste“, sagt Vlcsek. 2014 begann diese Vorarbeit in Form von Präsentationen, Diskussionen zwischen den Beteiligten, Systemvorstellungen sowie konkreteren Planungen und Konzepten. „Unsere primäre Kontaktschnittstelle war und ist die TU Wien, die die technischen Ressourcen und ebenfalls das entsprechende Know-how zur Verfügung stellt“, erklärt Vlcsek. Von Juli bis November 2016 erfolgte die erste Ausbaustufe, um die ersten Sentinel-Satellitendaten abzuspeichern. 2018 folgte die zweite.

Mittelfristig ist geplant, die Daten von mehreren europäischen Satelliten zu speichern, was täglich eine Speicherkapazität von circa 15 Terabyte erfordern wird. EDV-Design fungiert als Generalunternehmen, das alle Phasen des Projektes betreut – von Planung und Präsentation über Aufbau und Adaption der Infrastruktur bis zur Installation und Anbindung an den VSC, Konfiguration und Inbetriebnahme. Des Weiteren erarbeitete EDV-Design gemeinsam mit dem Kunden das Layout und stellte Richtlinien zur Nutzung des Storage-Systems auf.

Ältere Daten kommen auf Tape

„Ein Mischsystem aus Disc und Tape war die beste und preiswerteste Lösung für das EODC“, sagt Vlcsek. Zudem sei das System für Kunden durch und durch transparent, unter anderem durch die gemeinsam mit EDV-Design aufgestellte Policy zur Datensichtbarkeit: Daten, die älter als ein Jahr sind, werden auf kostengünstigere Tapes ausgelagert, damit die neuen Satelliteninformationen auf der leistungsstarken Disc Platz haben. Aktuell befinden sich 50 Prozent der Daten auf Tape. Dies kann bis zu 90 Prozent ausgedehnt werden, auch um den Energieaufwand für das Speicherarchiv im Sinne von „Green IT“ gering zu halten. Die auf Tape gespeicherten Daten sind stets verfügbar und absolut übersichtlich für den Benutzer – er kann so bei speziellen Projekten ganz einfach auf historische Daten zugreifen.

„Wir haben hier einen soliden Storage-Grundstein erschaffen, der immer wieder erweitert werden kann. An der Grundstruktur ändert sich nichts mehr“, erläutert Vlcsek weiterhin. Je nach Kundenwünschen kommen neue Features, Updates oder Backups dazu, oder es kommt zu zusätzlichen Netzwerkanbindungen oder örtlichen Trennungen. „Aber das Speichersystem an sich lässt sich einfach immer mehr erweitern, indem man mit neuen Tapes nachrüstet.“ Eine technische Herausforderung während der Installation und Inbetriebnahme sei gewesen, die Schnittstellen zu den bestehenden Systemen korrekt einzurichten. „Aber auch diese Herausforderung konnten wir schnell erfolgreich meistern“, sagt Vlcsek.

Solides und erfolgreiches System für Forschungszwecke

„Wir sind sehr zufrieden mit der Arbeit von EDV-Design, die ein zuverlässiger und motivierter Dienstleister bei der Umsetzung war“, attestiert Wagner. Das überaus performante Storage-System und der schnelle Support seien dabei die Hauptvorteile. Zudem wird das EODC umfassend angenommen und erfolgreich von Universitäten, Unternehmen und Forschungseinrichtungen aus dem In- und Ausland genutzt, mit wachsenden Anwenderzahlen. Insgesamt 20 Kooperationspartner des EODC auf internationaler Ebene – unter anderem aus Österreich, Deutschland, Belgien, Italien, Australien und der Schweiz – arbeiten bereits mit den Sentinel-Daten und profitieren dabei von dem schnellen Storage. Beim jährlich stattfindenden EODC Forum kommen die Partner zusammen, um sich über ihre Projekte, Projektentwicklungen und -fortschritte im Rahmen des EODC auszutauschen. Dabei kommen die unterschiedlichsten Themen und Anwendungsbeispiele zur Sprache, wie zum Beispiel die Erkennung von Sturmschäden in alpinen Wäldern, Luftschadstoffemissionen, Dürreüberwachung oder die Rolle von Satellitendaten für Versicherungen.

Ein Blick in die Zukunft des EODC

„Es ist weltweit einmalig, ein riesiges Erddatenarchiv unmittelbar an enorme Rechenleistung gekoppelt zur Verfügung zu haben. Mit den oftmals verwendeten, vergleichsweise teuren Cloud-Rechenkapazitäten kann über begrenzte Datenströme niemals so schnell auf die Datenquellen zugegriffen werden, wie das im Arsenal in Wien in lokaler Kombination möglich ist“, sagt auch Robert Kibler, Geschäftsführer von EDV-Design über den Erfolg des Systems. Die nächste Ausbaustufe des Vienna Scientific Clusters ist in der Finalphase, sodass VSC-3 bald durch VSC-4 abgelöst wird.

Wolfgang Wagner ergänzt mit Blick in die Zukunft: „Wir hoffen, durch die Daten und Infrastruktur des EODCs in Zukunft eine bedeutende Rolle für internationale Initiativen spielen zu können, wie die European Open Science Cloud (EOSC) oder WEkEO, das von EUMETSAT, ECMWF und Mercator Ocean betriebene Copernicus Data Information and Access System (DIAS). Am Ende geht es darum, anhand fundierter Daten rechtzeitig einzugreifen, um im Rahmen des Klimawandels die Lebensqualität zu erhöhen. Und das ist eine nie endende Aufgabe, der wir durch das leistungsstarke Storage-System gewachsen sind.“

*Die Autorin: Tatjana Müller, Redakteurin bei dieleutefürkommunikation

(ID:46308534)