Suchen

Massendatenspeicher für Biowissenschaften und Klimaforschung HPC-Storage als Grundlage für Innovationen

| Redakteur: Dr. Jürgen Ehneß

Schwierigkeiten bei der Verarbeitung großer und komplexer Datensätze behindern beispielsweise Innovationen in den Biowissenschaften. Nun zeichnet sich ein Wandel ab: In zunehmendem Maße nutzt das Fachgebiet Hochleistungsrechnertechnologie (HPC) mit immer höherer Produktivität. Die größte Triebfeder für den HPC-Einsatz sind die immer größeren Datensätze in der Forschung, die in den vergangenen Jahrzehnten fast exponentiell gewachsen sind.

Zu den datenintensivsten Wissenschaftsbereichen gehört die Klimaforschung. Essenziell für die Speicherung der Forschungsdaten sind entsprechende HPC-Storage-Lösungen.
Zu den datenintensivsten Wissenschaftsbereichen gehört die Klimaforschung. Essenziell für die Speicherung der Forschungsdaten sind entsprechende HPC-Storage-Lösungen.
(Bild: gemeinfrei / Pixabay )

Das Humangenomprojekt begann 1990 als internationales Forschungsvorhaben zur Bestimmung der Sequenz des menschlichen Genoms. Das National Institute of Health und das US-Energieministerium koordinierten das Projekt; inzwischen umfasst es Universitäten in den Vereinigten Staaten und internationale Partner in Großbritannien, Frankreich, Deutschland, Japan und China.

Dank der Arbeit des Humangenomprojekts konnten Forscher den Bauplan für den Aufbau des Menschen verstehen; dies hatte bedeutende Auswirkungen auf Medizin, Biotechnologie und Biowissenschaften. Das Projekt dauerte 13 Jahre und erforderte Millionen an Rechenstunden sowie hunderte Terabyte an Datenströmen. Die daraus folgenden 2,9 Milliarden Basenpaare des haploiden menschlichen Genoms entsprechen einem Maximum von etwa 725 Megabyte an Daten, da sich jedes Basenpaar mit zwei Bits kodieren lässt. Da die einzelnen Genome um weniger als ein Prozent voneinander abweichen, kann man sie verlustfrei auf etwa vier Megabyte komprimieren.

Größere Datenmengen

Projekte der aktuellen Generation etwa in der Mikrobiologie erzeugen Datenströme, die eine Größenordnung umfangreicher sind. Cryo-EM, eine nobelpreisgekrönte und bahnbrechende Technologie zur Erstellung von 3D-Modellen der Struktur biologischer Moleküle mit einer Detailgenauigkeit fast bis auf atomarer Ebene, ermöglicht Fortschritte in der Forschung in einigen Bereichen der Genetik. Allerdings erzeugt ein einziges Cryo-EM-Mikroskop im Laufe eines Tages riesige Datenmengen (typischerweise 1 bis 2 Terabyte); wenn Organisationen dann mehrere Mikroskope kaufen, vervielfacht sich das Datenwachstum entsprechend.

Die Next-Generation-Sequenzierung (NGS), ein Verfahren zur DNA- und RNA-Sequenzierung mit hohem Durchsatz, ist ein weiteres Beispiel für diese Datenflut. Obwohl sie erstmals Anfang der 2000er-Jahre aufkam, bedeutet die rasche und kontinuierliche Zunahme der Datengenerierung zusammen mit einer gleichzeitigen Senkung der Sequenziergerätekosten, dass NGS-Geräte heute für die Generierung der meisten Daten verantwortlich sind, die von Organisationen im Bereich Life Sciences (Biowissenschaften) produziert, analysiert und gespeichert werden. Diese Sequenziergeräte – vom Desktop-Gerät bis hin zu Cluster-Sequenzern – können jeden Tag mehrere hundert Gigabyte bis zu mehreren Terabyte generieren.

Viele Organisationen nutzen mehrere Sequenzierer, was das Problem der Datenerzeugung weiter verschärft. Große Forschungsprojekte, die sowohl Cryo-EM- wie auch NGS-Workflows nutzen, können Hunderte Terabyte an Daten erzeugen, die man immer öfter mit rechnergestützten Systemen analysiert. Laut Dale Brantly, Director of Systems Engineering bei Panasas, leiden aber viele Forschungsorganisationen zunehmend unter einem Missverhältnis zwischen der Erstellung digitaler Forschungsdaten und der für ihre Analyse nötigen Berechnung und Speicherung. Das US-Unternehmen Panasas stellt entsprechende HPC-Speicherlösungen bereit, die das parallele PanFS-Dateisystem auf der schlüsselfertigen ActiveStor-Ultra-Speicheranwendung bereitstellen.

„Aus meiner Sicht ist der gravierendste Punkt beim Umstieg von Organisationen auf HPC, dass eine meist erhöhte Anzahl an Rechenknoten keine entsprechende Verbesserung des Gesamtdurchsatzes bringt. Im Gegenteil – aufgrund von Engpässen im Netzwerk oder noch schlimmer innerhalb des Speichers kann sich alles verlangsamen“, sagt Brantly, der an der Bereitstellung von Technologielösungen für Einrichtungen wie die ARC-Anlage (Advanced Research Computing) der Universität Oxford und das Garvan Institute of Medical Research mitgewirkt hat und die Bedeutung der Wahrung einer ausgewogenen Infrastruktur auch angesichts wachsender Speicherumgebungen betont.

Parallelverarbeitung

Auch wenn immer mehr Anbieter Speicher-, Netzwerk- und Rechenleistung innerhalb von HPC anbieten, bevorzugte die Wissenschaft bisher Unix- und Linux-basierte Dateisysteme wie ZFS. Obwohl es sich dabei um ein bewährtes Dateisystem handelt, erfordert das schnelle Wachstum der Forschungsdaten und die Notwendigkeit einer beschleunigten Verarbeitung einen Wandel hin zu effizienteren und leichter zu verwaltenden Speicherplattformen.

Eine der wichtigsten Weiterentwicklungen in diesem Bereich ist der Einsatz paralleler Dateisysteme; diese bieten nicht nur einen höheren Datendurchsatz, sie bilden auch eine hoch skalierbare Datenspeicherumgebung zur Unterstützung zukünftiger Rechenanforderungen. Im Bereich der Life Sciences weiß man, wie andere große, datenintensive Forschungsprojekte wie etwa die Modellierung des Klimawandels mit der Notwendigkeit einer leistungsfähigeren Speicherung umgehen.

Datenintensive Klimamodellierung

Ein Beispiel dafür ist das Rutherford Appleton Laboratory (RAL), eines der wichtigsten britischen Regierungslabors und Teil des Science and Technology Facilities Council (STFC), das Forschungsarbeiten in so unterschiedlichen Bereichen wie Astronomie, Astrophysik, Biologie und Klimamodellierung unterstützt.

Das RAL hat für die Klimaforschung im Rahmen der Ausweitung seiner sehr datenintensiven Klimamodellierung in fast acht Petabyte Hochleistungsspeicher investiert. Das parallele Dateisystem spielt dabei eine entscheidende Rolle: Es sichert die für schnell wachsende Arbeitsleistungen in der Klimamodellierung erforderliche Skalierbarkeit und erschwingliche Leistung.

Das RAL nutzte ein paralleles Speichersystem, das Kapazität und Leistung linear auf 150 Gigabyte pro Sekunde skalierte, und erzielte damit eine der weltweit schnellsten Implementierungen eines Einzeldatei-Dateisystems in einem SATA-Speicher für Unternehmen mit einem Durchsatz im Terabyte-Bereich. Dabei kann das RAL bei steigenden Speicheranforderungen problemlos einzelne Blade-Chassis oder ganze Racks hinzufügen und damit seine Kapazität und Leistung unterbrechungsfrei skalieren.

Einsatzbeispiel: Panasas ActiveStor

Dr. Bryan Lawrence, Professor für Wetter- und Klimainformatik an der Universität Reading und Direktor für Modelle und Daten am National Centre for Atmospheric Science (NCAS), erklärt: „Auch im skalierten Zustand bleibt das parallele Dateisystem belastbar, und dank eines direkten und parallelen Zugriffs auf den Speicherpool können wir ohne Beeinträchtigung durch die Systemengpässe unserer früheren Anlagen an unseren komplexesten Simulationen arbeiten.“

Um sein Illumina-Sequenzersystem mit voller Kapazität betreiben zu können, entschied sich das Garvan Institute of Medical Research, eines der führenden Medizinforschungsinstitute Australiens, seine bestehende Speicherinfrastruktur auf ein paralleles Dateisystem umzustellen. Dabei wählte man das das parallele Panasas-PanFS-Dateisystem auf ActiveStor, das den Forschern eine Speicherlösung mit schnellem Datenzugriff bietet, wie er für Rapid Prototyping und die Auswertung spezieller Analysen in der Genomsequenzierung erforderlich ist. Durch die Kombination der Panasas-Speicherung mit den Illumina-Sequenziergeräten konnte Garvan seine Sequenzierkapazität auf durchschnittlich 50 Genome pro Tag – und damit um den Faktor 50 – steigern.

„Ein zentrales Element unserer Arbeit ist die Wahrung einer außergewöhnlichen Infrastruktur, die all dies ermöglicht, und Panasas ist ein wichtiger Teil davon“, sagt Dr. Warren Kaplan, Leiter der Informatik bei Garvan. „Panasas hält sein Versprechen, hervorragende Leistung bei vernachlässigbaren Wartung- und Verwaltungszeiten zu bringen. Außerdem bleiben unsere Sequenzierungsdaten während der gesamten Analyse in unserem zentralen Datenspeicher; dies ermöglicht effizientere Arbeitsabläufe und spart Zeit und Bandbreite.“

Verbesserte Leistung

Selbst eine Leistungssteigerung von nur wenigen Prozent gegenüber einem herkömmlichen ZFS-basierten Speicher kann deutliche Auswirkungen auf das dazugehörige Computersystem haben. Diese potentiellen Vorteile genauer zu verstehen, ist jedoch eine komplexe Aufgabe. Zur Überprüfung dieser Hypothese beauftragte man im Jahr 2018 BioTeam, eine HPC-Beratung aus Wissenschaftlern und IT-Spezialisten, mit der Evaluierung der Vorteile eines modernen parallelen Dateisystems gegenüber älteren Äquivalenten vom Typ ZFS. BioTeam erstellte drei reale Testszenarien, darunter eine genomische Burrows-Wheeler-Aligner-Indizierung (BWA), eine BWA-Genome-Angleichung sowie eine Cryo-EM-3D-Klassifizierung.

Beim Test nutzte man das Industriestandard-Open-Source-Software-Produkt Relion zur Durchführung von Cryo-EM-Rekonstruktionen. Die Tests wurden mit Panasas ActiveStor, einem Netzwerkdateisystem für Lese- und Schreibvorgänge, sowie mit einem ein Referenz-ZFS-Speicher-Array durchgeführt, das als Netzwerkdateisystem für Lese- und Schreibvorgänge konfiguriert wurde. Im Rahmen der Durchführung mit einer strengen Testmethodik lieferte die Panasas-ActiveStor-Konfiguration mit Panasas-DirectFlow-Clients bei der BWA-Indizierung einen Leistungsvorteil von rund 20 Prozent gegenüber der ZFS-Referenzkonfiguration.

Der Cryo-EM-Test ergab bei der 3D-Rekonstruktion mit Cryo-EM ohne GPU-Beschleunigung eine etwa 20-prozentige Verbesserung der Laufzeit pro Iteration für ActiveStor gegenüber dem ZFS-Referenz-Array. Der Vergleich mit einem ZFS-Array mit Dual-Clients, die denselben Job ausführen, lieferte eine Laufzeitverbesserung um circa zehn Prozent. Das vollständige Whitepaper mit einer Beschreibung von Testmethodik und Ergebnissen ist bei Panasas erhältlich.

Der menschliche Faktor

Auch die Effekte des menschlichen Bedieners beeinflussen den Einsatz neuer Technologien. „Der Kampf um Talente ist für alle eine Herausforderung“, sagt Brantly. „Das hören wir überall; es ist sehr schwer, einen erstklassigen Speicher- oder Systemadministrator für den Betrieb dieser Systeme zu finden. Die Schlüsselfrage für Forscher und IT-Mitarbeiter lautet: Lässt sich ein System einfach betreiben und skalieren?“

Abschließend betont Brantly die entscheidende Bedeutung von vernetztem Denken, besonders beim Einstieg in eine HPC-Infrastruktur mit paralleler Speicherung und wichtiger Infrastruktur. „Man sollte solide IT-Prinzipien wie Backup und Replikation implementieren; nur so lässt sich sicherstellen, dass Daten immer verfügbar sind. Womöglich ist dies ein Lebenswerk mit dem Potenzial, der Gesellschaft zu helfen. Leistung mit Schutz hat dabei eine entscheidende Bedeutung.“

(ID:46579207)