Mehr Kontrolle über die Datenflut mit Tiered Adaptive Storage Cray fordert offene Formate im Langzeitarchiv

Autor / Redakteur: Jason Goodman, Senior Product Marketing Manager, Storage bei Cray / Rainer Graefen

In Anbetracht von Big Data sehen sich viele Unternehmen und Organisationen einer immer größer werdenden Masse an Daten gegenüber. Die Erfassung, Auswertung und Aufbereitung der Datenmengen ist dabei nur ein Baustein von Big Data. Mindestens genauso essenziell ist eine leistungsfähige Archivierungslösung.

Anbieter zum Thema

( Cray)

Ob ein Flash-Speicher basierend auf I/O-Forwarding-Technologien, lokale oder parallele File-Systeme, die auf vielfältige Weise bereitgestellt werden können, ein hierarchisches Speichersystem (Hierarchical Storage Management, HSM) oder Object Storage die richtige Speicherlösung für ein Unternehmen ist, hängt im Wesentlichen von der Anwendungsauslastung ab und davon, wie Nutzer in der Praxis mit den Daten umgehen.

Flash-Storage und I/O-Beschleunigung oder parallele File-Systeme wie Lustre ziehen Nutzer eher in Betracht, wenn Daten, gemessen an Durchsatz und IOPS, mit extremen Geschwindigkeiten verarbeitet werden müssen. In anderen Fällen, wenn Daten „altern“ und längere Zeit ungenutzt sind, können Object Storage- oder Tiered Storage-Systeme das geeignete Medium für eine langfristige Datenspeicherung sein.

In jedem Fall muss sichergestellt werden, dass die Daten unabhängig von ihrem Alter für die Nutzer kontinuierlich verfügbar und geschützt sind. Auf welche Speichertechnologie die Daten auch gestützt sind (SSD, Disk oder Tape), sie müssen für die Anwendungen, Nutzer und für Arbeitsabläufe hundertprozentig zugänglich sein.

Präzise Wetterinformationen mit der passenden Archivierungslösung

Große Organisationen wie Wetterdienste sind ein gutes Beispiel, um die Anforderungen an Archivierungslösungen anschaulich darzustellen. Wetterdienst-Zentren mit numerischen Wettermodellen sind meist mit bis zu 100 Petabytes an Daten und einer jährlichen Wachstumsrate von über 40 Prozent konfrontiert.

Eine leistungsfähige Archivierungslösung, mit der Daten leicht abgerufen und analysiert werden können, ist unerlässlich, um zuverlässige Wetter- und Klimaprognosen aufzustellen. Unternehmenskritische Umgebungen wie Wetter und Klima erfordern, dass Modelle innerhalb eines bestimmten Zeitrahmens verarbeitet werden können.

Entsprechende Systeme müssen daher nicht nur ständig erreichbar bleiben, sondern auch durchgängig und berechenbar funktionieren. Storage ist hierbei eine besondere Herausforderung, denn es muss die richtige Menge an Speicher-I/O oder Bandbreite an die Rechenumgebung geliefert werden.

Sollten die I/O-Muster einer Anwendung zufällig oder burstartig sein, dürfte Flash helfen. Wenn die Anwendung hingegen eine eher sequentielle Auslastung hat, sind herkömmliche parallele Dateisysteme geeignet. In jedem Fall muss die zugrunde liegende Storage-Lösung den Anforderungen der Anwendung und der Rechenleistung entsprechen.

Proprietäre Hardware vs. Tiered Adaptive Storage

Herkömmliche Archivierungssysteme greifen häufig zu kurz, um für die riesigen Datenmengen gerüstet zu sein: Proprietäre Hardware beeinträchtigt die Datenbewegung, die Skalierbarkeit ist für den Datenwachstum unzureichend und die Integration in Arbeitsabläufe erfordert teure Support-Services.

Historisch gesehen haben wiederum Wetterdienste eine Vielzahl von Speichertechnologien für Online- und Archivspeicher verwendet, welche jedoch oft eine manuelle Konstruktion aufwendiger Prozesse erforderte, um Daten von einem Ort zum anderen und zurück zu bewegen.

Eine effektive Lösung hierfür ist es statt dessen, Storage – sowohl Onlinespeicher als auch Archive – als einheitliches Ganzes zu konzipieren. Das lässt sich mit einem hierarchischen Speichersystem erreichen, das Fast Disk und ökonomisches Tape zu einem einzigen transparenten Dateisystem zusammenfügt.

Benutzer können dann alle Dateien in einer riesigen Bibliothek sehen und auf diese zugreifen, aber nur die Daten, die in Benutzung sind, werden auf der schnellen und teureren Disk gelagert. Wenn ein Datensatz nicht mehr verwendet wird, wird dies vom System erkannt und die Daten werden automatisch in eine Bandbibliothek für langfristige Aufbewahrung migriert bis sie wieder gebraucht werden.

Offenheit im Langzeitarchiv

Proprietäre Archivierungssysteme neigen zudem dazu, Daten in interne Formate zu verpacken, wodurch diese nur schwer abgerufen werden können, wenn die Lebensdauer des Systems einmal überschritten ist. Im Vergleich dazu speichern offene Archivierungssysteme wie Tiered Adaptive Storage (TAS) von Cray ihre Archive in gut dokumentierten Formaten, die auch in einer künftigen Umgebung leicht abrufbar sind.

Mit dem fortschreitenden Anstieg der Datenmengen und der Notwendigkeit, diese zu verarbeiten, wird oft übersehen, dass dies auch Anlagen mit größerer Leistung und Kühlkapazität erforderlich macht. Indem Archive in kompakten, „grünen“ Bandbibliotheken aufbewahrt werden, kann aber wenigstens ein Teil dieser Belastung reduziert werden.

Datensätze auf Tape abzulegen stellt allerdings keine endgültige Lösung dar. Um Daten effektiv nutzen zu können, müssen sie für die Computer-Infrastruktur zugänglich sein. Oft kommt Scripting zum Einsatz, um groß angelegte Kopiervorgänge von einem Archiv auf einen Online-Speicher zu orchestrieren – doch das reicht längst nicht mehr aus.

Im Gegensatz dazu werden durch den Einsatz einer modernen und offenen Archivierungslösung wie TAS den Nutzern alle Dateien – im Archiv abgelegte oder aktive – als einzelne Dateisysteme dargestellt. Außerdem hat TAS den Vorteil in Hochleistungs-Lustre-Speicher integriert werden zu können, sodass Daten vom schnellsten zum langsamsten Speicher bewegt werden können ohne dass ein Systemadministrator manuell eingreifen muss.

Strategische Partnerschaft

Da Big Data und Supercomputing zusammenwachsen, braucht es Hochleistungsspeicher-Systeme, die Platz sparen sowie Kosten und Komplexität reduzieren. Die Partnerschaft zwischen Cray und Seagate setzt dort an und konzentriert sich darauf, kundenorientierte Lösungen im Bereich End-to-End-Hochleistungsspeicher bereitzustellen. Die Seagate Technologien stellen einen wesentlichen Bestandteil der von Cray gelieferten parallelen Storage-Lösungen (Cray Cluster Connect) dar.

(ID:43870972)