Datenmanagement von Genomdaten mit Stornext

Hochmodernes Dateisystem sichert sensible Genomdaten dauerhaft

| Autor / Redakteur: Stephane Estevez* / Rainer Graefen

Abb. 1: Die wachsende Anzahl an Anwendungsfeldern führt zu einer zunehmenden Generierung von Genomdaten.
Abb. 1: Die wachsende Anzahl an Anwendungsfeldern führt zu einer zunehmenden Generierung von Genomdaten. (Bild: © Mopic - Fotolia.com)

Mehr als 30 Terabyte Daten werden am Swiss Institute of Bioinformatics pro Woche generiert. Extrem umfangreiche Datenanalysen in Genomik, Proteomik und anderen Gebieten der Bioinformatik machen es nötig, auf hochmoderne Speichertechnologie zu setzen.

Das unabhängige Swiss Institute of Bioinformatics (SIB) zählt zu den führenden Forschungseinrichtungen im Bereich der Genomik und Proteomik. Jede Woche werden hier 30 TByte an Daten erzeugt. Da sich die "Omik"-Disziplinen und insbesondere die Genomik in Richtung Patientenversorgung bewegen, stellt der Stornext Scale-Out-Storage für das SIB eine proaktive Strategie dar, Genomdaten über Jahrzehnte für eine weitere Verwendung vorzuhalten.

In dem 1998 gegründeten Verbund haben sich etwa 60 bioinformatische Forschungs- und Dienstleistungsgruppen und ca. 700 Wissenschaftler der führenden Schweizer Universitäten und Forschungsinstitute zusammengeschlossen. Dem Engagement des SIB nach Ausbildung und Forschung im Bereich der Genomik ist zu verdanken, dass die Schweiz die höchste Konzentration an Bioinformatikern aller Länder weltweit hat.

In letzter Zeit konzentriert sich das SIB verstärkt auf die angewandte Genomik. Personalisierte Medizin, Bevölkerungsgenetik, die biologischen Hintergründe der Geschmackswahrnehmung, Methoden zur Steigerung der Ernteerträge – all diese Forschungsbereiche können dazu beitragen, die Lebensqualität für uns alle zu verbessern.

"Das SIB hat vor kurzem einen Algorithmus für einen pränatalen Diagnosetest auf Bedingungen wie das Down-Syndrom entwickelt", erläutert Professor Ioannis Xenarios, Director der Vital-IT Group, die beim SIB für das Design und den Support der innovativen Datenverarbeitungsinfrastruktur zuständig ist, auf die die Wissenschaftler bei ihren Forschungen angewiesen sind.

"Mit einer einfachen Blutabnahme bei der Mutter in der 11. Schwangerschaftswoche können wir das genetische Material des Fötus in der Gebärmutter sequenzieren. Diese Methode ist weniger invasiv und viel weniger riskant als die bislang übliche Fruchtwasserentnahme. Und sie zeigt, dass Genomik heute im Alltagsleben eine immer größere Rolle spielt."

Besondere Anforderungen an das Datenmanagement

Angesichts der wachsenden Zahl an Anwendungsfeldern der genomischen Forschung sowie sinkender Kosten und Zykluszeiten für Sequenzierungen führen Organisationen heute deutlich mehr Genomsequenzierungen durch und generieren dabei extrem große Mengen an Daten von hohem Wert.

"Je weiter wir uns der angewandten Bioinformatik nähern, desto wichtiger ist es, sich Gedanken über die langfristige Aufbewahrung und Verwaltung der Daten zu machen – sowohl im Hinblick auf skalierbare Kapazitäten als auch auf die damit verbundenen Kosten für Personal, Energie und Kühlung", so Xenarios.

Das SIB betreibt sechs verschiedene Sequenzierungszentren und unterstützt Projekte von ca. 300 aktiven Forschungsteams. Sequenzierungsläufe dauern mehrere Tage und die Teams verarbeiten in der Regel pro Woche fünf separate Projekte.

Die Rohdaten werden nacheinander verschiedenen Analyseanwendungen unterzogen und zu Übersichtstabellen und Grafiken für Berichte und Veröffentlichungen aufbereitet. Da bei der Sequenzierung jede Woche bis zu 30 TByte Daten generiert werden, steigen die Datenbestände rasant an.

"In den letzten Jahren ist die Sequenzierung viel schneller geworden", erklärt Roberto Fabbretti, Senior Scientist und IT Manager bei Vital-IT. "Das bedeutet, wir verarbeiten mehr Projekte denn je, und unser Datenvolumen explodiert."

Wertvolle Genomdaten, lange Projektlaufzeiten

Die wegbereitende Spitzenforschung, die das SIB betreibt, bedeutet, dass Xenarios und sein Team in gewisser Weise die Datenhüter der auf lange Zeiträume angelegten Genomikprojekte sind. "In Bereichen wie der Krebsforschung und Immuntherapie erfassen wir von jedem Patienten große Mengen an sequenzierten Daten", so Xenarios. "Wenn diese im Wochen- oder Monatsrhythmus zur Untersuchung erscheinen, benötigen die Wissenschaftler innerhalb kürzester Zeit exakten Zugriff auf alle Daten der vorherigen Tests. Um längerfristig Zehntausende Patienten unterstützen zu können, brauchen wir kosteneffektive Verfahren, um die genomischen Daten 20, 30 oder auch 40 Jahre vorhalten zu können – und so im Prinzip ein Bild des Patienten zu erstellen, das von vor seiner Geburt bis zu seinem Ableben reicht."

Leistungsfähiger Speicher für Genomdaten im PByte-Bereich

Vital-IT unterstützt seine Forschungsinfrastruktur mit Stornext Scale-Out Storage von Quantum. Vier separate Stornext-Systeme – fast 1 PByte Primärspeicher und 4 PByte an kosteneffizienten Tape-Archiven – bieten den Wissenschaftlern Hochgeschwindigkeitszugriff auf Sequenzierungs- und Analysedaten. Stornext unterstützt die hochperformante Verarbeitung von Genomdaten mittels IP over Infiniband.

Der mehrstufige Ansatz sieht vor, dass aktive Daten für komplexe Analysen auf dem Primärspeicher vorgehalten und bei zunehmendem Alter automatisch in das langfristige Archiv verschoben werden. Über 600 Anwender greifen auf die sequenzierten Genomdaten zu – entweder lokal über das Netzwerk eines SIB-Rechenzentrums oder remote über eine CIFS-Schnittstelle.

"Als wir vor acht Jahren begannen, uns nach einer geeigneten Lösung umzusehen, war Quantum Stornext das einzige Produkt, das uns für unsere Arbeit einen echten Mehrwert bot", erläutert Xenarios. "Es waren keine Änderungen an der vorhandenen Infrastruktur erforderlich, und ein einziger Vollzeitmitarbeiter kann die gesamte Speicherinfrastruktur verwalten. Das bedeutet für uns einen riesigen Vorteil, denn so können wir sicher sein, unser Budget optimal im Sinne unserer Forscher einzusetzen." "Die Daten, die die Wissenschaftler erfassen und analysieren, liefern schon heute wichtige Antworten. Sie haben aber auch für die kommenden Monate oder Jahre ein immenses Potenzial, denn neue Analyseanwendungen sind dann möglicherweise in der Lage, aus denselben Rohsequenzen noch ganze andere Informationen abzuleiten", so Fabbretti. "Stornext ermöglicht uns eine kosteneffektive langfristige Archivierung all unserer Projekte – unabhängig von ihrer voraussichtlichen Laufzeit."

Direkte Verfügbarkeit der Forschungsdaten

Sobald die aktive Datenverarbeitung bei einem Forschungsprojekt abgeschlossen ist, verschiebt der SIB-Workflow die Dateien automatisch aus dem Primarspeicher in Quantum Stornext AEL-Tape-Archive. Die Forscher merken davon nichts. Selbst nachdem eine Datei ins Archiv verschoben wurde, wird sie ihnen im Dateisystem so angezeigt, als befände sie sich immer noch auf Disk. Und das IT-Team muss nicht mehr Berge von Anfragen auf Wiederherstellung archivierter Daten bearbeiten. Die Self-Service-Funktion stellt sicher, dass Wissenschaftler mühelos eigenständig auf archivierte Dateien zugreifen können, ohne dafür den IT-Support in Anspruch nehmen zu müssen.

"Wenn man Forschern die richtigen Tools an die Hand gibt, sind sie nicht mehr zu bremsen", berichtet Xenarios. "Sie sequenzieren 1000 Personen und innerhalb weniger Monate sammeln sich 800 TByte Daten an. Mit dem mehrstufigen Stornext Storage können wir Daten schnell einspeisen, sie rasch ins Archiv verschieben und dort bereithalten, damit die Bioinformatiker ihre Arbeit fortsetzen können."

"Stornext gewährleistet nicht nur, dass wir Daten schnell erfassen können – es erlaubt uns auch eine automatische, kosteneffektive Archivierung, mit der wir unserer Rolle als Datenhüter gerecht werden", führt Fabbretti aus. "Wir legen immer zwei Kopien der Dateien auf Tape ab, wobei wir eine im Archiv verfügbar halten und die andere extern aufbewahren, um bei einem eventuellen Hardwarefehler oder Standortausfall zusätzlich abgesichert zu sein."

Automatische Sicherung für sensible Datensätze

Auch die Daten im Quantum-Archiv werden zuverlässig mit Funktionen für Management, Monitoring, Datenintegrität und Datensicherheit gesichert. Extended Data Life Management (EDLM), ein zentrales Feature von Quantum Tape-Archiven, lädt Tapes in regelmäßigen Abständen in spezielle Laufwerke und überprüft die Medien und die darauf gespeicherten Daten. Bei verdächtigen Medien werden die Daten automatisch auf eine frische Kassette kopiert, um die Integrität der Informationen zu gewährleisten.

"Wir haben es mit einigen der wertvollsten Datensätze weltweit zu tun", so Fabbretti. "Stornext sichert uns Archivkapazitäten im Umfang von mehreren Petabyte, eine langfristige Datensicherung und die Möglichkeit, mühelos frühere Dateiversionen wiederherzustellen – und ist damit ein erfolgskritischer Bestandteil unserer Strategie."

Skalierbarkeit gewährleistet Zukunftssicherheit

Die Fachbereiche Genomik und Proteomik entwickeln sich schnell weiter. Doch eines bleibt gleich: der rasche Anstieg der Datenbestände. Mit der skalierbaren Performance und Kapazität von Stornext kann das SIB allen künftigen Innovationen gelassen entgegenblicken.

"Stornext hält nun schon seit über sechs Jahren mit unserem Wachstum Schritt. Wir wissen, dass wir im Bedarfsfall einfach weitere Disks hinzufügen können, um die Kapazität aufzustocken. Tatsächlich speichern und sichern wir mittlerweile nicht mehr nur unsere genomischen Daten auf Stornext, sondern auch allgemeine Datensätze mit medizinischen Forschungsdaten. Dabei ist uns sehr wichtig, dass wir mit dem System ggf. auch problemlos weitere Ebenen wie Cloud oder Object Storage einbinden können."

Durch die langjährige Erfahrung mit genomischen Forschungsprojekten nimmt das SIB inzwischen auch eine Vorreiter- und Beraterrolle für kooperierende Partnerinstitute ein, die ihrerseits eigene IT-Programme für Life-Sciences-Projekte einführen möchten.

"Mittlerweile holen sich die Leute bei uns Rat zur Wahl der geeigneten Technologie", so Xenarios. "Die Entwicklung der biowissenschaftlichen Daten in den nächsten fünf Jahren ist unglaublich schwer abzuschätzen, zumal Ärzte die nächste Generation an Datenwissenschaftlern stellen werden. Daten sammeln sich extrem schnell an, und man kann nichts davon löschen. Mit Stornext lassen sich diese Informationen selbst auf lange Sicht kosteneffizient aufbewahren."

* S. Estevez: Backup and DR Product Marketing Manager, Quantum Corporation, Neuilly-Sur-Seine/ Frankreich

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 44098922 / Datei-Archivierung)