Suchen

Storage-Lösungen für Big Data Ein Ende der Datensammelwut ist nicht in Sicht

Autor / Redakteur: Gunther Thiel, NetApp / Nico Litzel

Viele Unternehmensdaten wurden nur gespeichert, damit man sie später löschen kann. Ein neuartiges Analysekonzept verspricht die sinnvolle Wiederbelebung.

Firmen zum Thema

(istockphoto.com © Andrew Rich)
(istockphoto.com © Andrew Rich)

Immenses Datenwachstum lässt den Speicherbedarf rund um den Globus explodieren. Ein Großteil davon sind unstrukturierte Daten, die klassischen Ordnungsprinzipien nicht genügen. Sie liegen beispielsweise als Files vor, im Gegensatz zu einfach analysierbaren Datenbankinhalten. Big Data ist also gleichermaßen ein Problem der Datenspeicherung als auch des Datenmanagements. Mit der richtigen Storage- und Datenmanagement-Lösung bietet „Big Data“ jedoch große Chancen.

„Big-Data-fähige“ Speicherarchitekturen erlauben es, die von Unternehmen und Kunden forcierte Digitalisierung der Wirtschaft lukrativ nutzen zu können. Innovative Speichertechnik ist ein Kernelement, um Big Data plattformübergreifend profitabel handhaben zu können. Wer einige Regeln beachtet, ist bereits mit heutigen Storage-Lösungen fit für Big Data.

Das ABC des Big Data

Drei Bereiche prägen den Begriff Big Data und seine Nutzung: Big Analytics (A), Big Bandwidth (B) und Big Content (C).

(A) Big Analytics: Die Echtzeit-Analyse extrem großer Datenbestände verschafft zusammen mit ihrer zuverlässigen Speicherung wettbewerbsentscheidende Einblicke, mit denen Kunden künftige Chancen und Risiken früher identifizieren. Solche Auswertungen setzen beispielsweise auf dem Hadoop-Framework auf.

(B) Big Bandwith: Analyse-relevante Daten müssen schneller denn je zur Verfügung stehen. Um hohe Workloads zu bewältigen, sind kurze Latenz und hoher Datendurchsatz unerlässlich.

Besonders bandbreitenintensive Services auf Basis von Voice und Video oder für High Performance Computing, beispielsweise mithilfe des Hochleistungs-Filesystems Lustre, lassen sich anders nicht abbilden.

(C) Big Content:

Beim Big Content geht es im wahrsten Sinne des Wortes um schier grenzenlose Speicherkapazitäten und Datensicherung im Storage-Grid-Umfeld. Hier wird Content nach Objektkriterien innerhalb eines globalen Adressraums kategorisiert. Kunden erreichen so eine extreme Skalierbarkeit für Mediadateien und Firmendaten.

Big Storage mit Hadoop

Um die Fülle unstrukturierter Daten effektiv auswerten zu können, reichen Bandbreite und Werkzeuge herkömmlich relationaler Datenbanken (RDBMS) nicht mehr aus. Anfragen, die früher über Nacht erfolgten, dauern heute mehrere Tage und sind nicht mehr praktikabel, beziehungsweise immer öfter nicht mehr durchführbar. Die offene Software im Apache-Hadoop-Projekt löst dieses Big-Data-Problem auf zwei Wege. Das hoch skalierbare Hadoop Distributed File System (HDFS) erleichtert das Speichern, Managen und Sichern sehr großer Datenbestände. Sein leistungsstarkes MapReduce-Programmiermodell kann die Rechenleistung mehrerer Standardserver in einem einzigen Hochleistungscluster bündeln. Mit MapReduce lassen sich große Datenbestände im Bruchteil der Zeit analysieren, die traditionelle RDBMS-Methoden brauchen.

Big Storage mit Lustre

Die Gesamtperformance und Recheneffizienz im Bereich Big Bandwidth beeinflusst neben Netzwerk und Storage vor allem das Filesystem. Lustre ist im Hochleistungsumfeld das am meisten verwendete Filesystem für die schnellsten Supercomputer weltweit. Es zeichnet sich durch effiziente Skalierung von Bandbreite und Storage-Dichte aus, womit es die Integration Zehntausender Clients oder mehrerer Petabyte an Speicherplatz sowie mehrere Hundert Gigabyte pro Sekunde an I/O-Durchsatz ermöglicht.

Das parallele Filesystem ist so das geeignete Mittel für komplexe Aufgaben in Forschung, Modellierung und Simulation mit Schwerpunkt High Performance Computing. So können entsprechend optimierte Storage-Lösungen mit Lustre eine Schreibgeschwindigkeit von 30 Gigabyte pro Sekunde erreichen und trotzdem Daten effektiv managen.

Fazit

Big Data ist eine große Chance, die sich mit vorkonfigurierten Lösungen auf Basis speziell zusammengestellter Storage-Systeme und der zugehörigen Techniken – für Datenmanagement und Analyse – viel leichter als bisher erschließt.

Mit modernen Storage-Systemen ist ein Hadoop Cluster beispielsweise in wenigen Stunden einsatzbereit. Gleichzeitig führen Kunden neue Mittel und Wege der Datenstrukturierung ein. So legen sie indirekt das technologische Fundament für neue Lösungen: Echtzeit-In-Memory-Analyse im Enterprise-Umfeld – Stichwort SAP HANA –wird beispielsweise erst durch neue Datenstrukturen möglich und nur mit einer horizontal skalierbaren und hochverfügbaren Storage-Infrastruktur vollständig.

(ID:32413080)