Flexible Handhabung von Daten Object Storage mausert sich zum Speicherstandard für Data Lakes

Autor / Redakteur: Paul Speciale* / Dr. Jürgen Ehneß

Es ist bemerkenswert: Data Lake, ein relativ neues Konzept und erst seit etwa 2010 ein Thema in der IT-Welt, wird laut „Research and Markets“ bis 2025 ein Marktvolumen von 20,1 Milliarden US-Dollar erreichen.

Firmen zum Thema

Unterschiedliche Quellen speisen den Datensee und lassen ihn schnell in den Petabyte-Bereich anschwellen.
Unterschiedliche Quellen speisen den Datensee und lassen ihn schnell in den Petabyte-Bereich anschwellen.
(Bild: ©rolffimages - stock.adobe.com)

Die Idee des Data Lake wird dem Pentaho-Gründer James Dixon zugeschrieben. Definiert wird der Begriff heute in der Regel als ein System oder Repository von Daten, die in ihrem natürlichen (heißt: rohen) Format gespeichert werden – normalerweise in Form von Object Blobs oder Files.

Der Begriff taucht heute vermehrt auf im Zusammenhang mit „Big Data“ und der Notwendigkeit, mit Hilfe von Analyse-Tools Erkenntnisse aus großen Datenmengen zu gewinnen.

Da Data Lakes Daten aus verschiedenen Quellen aggregieren – wie etwa Geschäftsdaten aus ERP-Systemen, Kundendaten aus eCommerce-Datenbanken, ferner Zeitreihendaten, Event Streams sowie Dateien aus Dokument-Repositories (um nur einige zu nennen) –, können Data Lakes schnell Kapazitäten im Petabyte-Bereich (und darüber hinaus) erreichen.

Wir haben es also mit einem Datenvolumen zu tun, das Data Lakes jenseits der Reichweite traditioneller Datenbanktechnologien wie RDBMS stellt, die eigentlich für den Umgang mit strukturierten Daten (im Sinne von Tabellenformaten mit eher einfachen Datentypen) konzipiert wurden. Dies ist einer der Gründe, weshalb neue Speicherlösungen wie das Hadoop Distributed File System (HDFS) entstanden sind: als ein flexiblerer, skalierbarerer Weg, um sowohl strukturierte als auch unstrukturierte Daten zu verwalten, was in der Kombination als „semi-strukturiert“ bezeichnet wird.

Analyse extremer Datenmengen

HDFS ist als Data-Lake-Speicherlösung weit verbreitet, insbesondere in Verbindung mit den Tools des Hadoop-Ökosystems: beispielsweise MapReduce, SPARK, Hive oder HBASE. Während Hadoop und HDFS in Unternehmen weit verbreitet sind, wurden in jüngerer Zeit auch eine Reihe neuer Tools zur Analyse (unter anderem Splunk, Vertica, Elastic) entwickelt, die nun im Markt verfügbar sind, um extreme Datenmengen in Data Lakes zu analysieren.

Die Datenanalyse hat zum Ziel, unternehmensrelevante Muster zu finden. Ein Beispiel aus dem eCommerce: Analysen mit Blick auf Varianzen in Verkaufserfolgen bestimmter Produkte zu unterschiedlichen Jahreszeiten. Für diese Art von Anwendungen hat HDFS seine Stärken und Schwächen, wie jede andere Technologie auch. Eine wesentliche Einschränkung von HDFS ist, dass es Rechen- und Speicherressourcen eng gekoppelt skaliert, da das Dateisystem auf denselben Maschinen wie die Anwendung gehostet wird. Wenn die Rechenkapazität wächst, wächst auch der Speicher – was für einige rechenintensive Anwendungen durch zusätzliche Speicherressourcen teuer werden kann, oder auch umgekehrt (geringere Rechenanforderungen durch höhere Speicherkapazität).

Einige kommerzielle Anbieter haben die ursprüngliche Open-Source-Implementierung von HDFS optimiert, aber letztlich sind neue Lösungen zur Datenspeicherung entwickelt worden, die Skalierbarkeit und Flexibilität gundlegend verbessern.

Grundlegende Vorteile

Um die Fülle an Informationen und Erkenntnissen in diesen massiven Datenspeichern vollständig analysieren und nutzen zu können, sind Unternehmen sowohl auf die Tools als auch auf das Speicher-Repository angewiesen, in dem die Daten letztlich gespeichert werden. Dies ist die wohl wichtigste Komponente. Das Repository muss Daten aus verschiedenen Quellen mit der genau richtigen Performance verarbeiten und in der Lage sein, sowohl in der Kapazität als auch in der Leistung zu wachsen, damit Daten für Anwendungen, Tools und Benutzer allgemein zugänglich sind. Wie bereits erwähnt, haben Datenbanken und File-Systems (wie unter anderem HDFS) eine Rolle in Data-Warehousing- und Data-Lake-Implementierungen gespielt. Darüber hinaus kommen auch Objektspeicher für On-Premises-Implementierungen und Cloud-Objektspeicherdienste als Data-Lake-Repository in Frage.

Neues eBook

Umfassender Überblick über die verschiedenen Möglichkeiten für Cloud-Storage

Cloud-Speicher-Strategien im Vergleich

eBook Cloud-Speicher
eBook Cloud-Speicher
(Bildquelle: Storage-Insider)

Die Hauptthemen des eBooks sind:
# Günstig, schnell und sicher: Storage in der Cloud
# Wozu Cloud-Storage-Plattformen?
# Exklusiver Cloud-Storage vor Ort
# Standardisierter Cloud-Storage von Providern
# Das Beste aus beiden Welten vereinen
# Alternativlos – aber die Qual der Wahl bleibt


>>> eBook „Cloud-Speicher-Strategien im Vergleich“ downloaden

Objektspeicherung hat grundlegende Vorteile für Data Lakes. Zunächst ist die Handhabung von Daten in einem Objektspeicher sehr flexibel. Insbesondere ist es nicht erforderlich, das „Schema“ der zu speichernden Daten zu definieren, wie es in RDBMS der Fall wäre, wo sowohl die Struktur als auch die Beziehungen zwischen Tables für komplexe Abfragen vordefiniert werden müssen. In Objektspeichersystemen können alle Dateitypen gespeichert werden, ohne dass diese Vordefinition erforderlich ist, und ohne Begrenzung für die Menge an Daten.

Anzahl an Tools nimmt zu

Was den Zugriff angeht, so nutzen immer mehr Analyseanwendungen die Amazon-S3-API (wie zum Beispiel Splunk SmartStore und Verticas Eon-Modus). Hadoop-Ökosystem-Tools wie Apache SPARK sind ebenfalls in der Lage, über ein Hadoop Compatible File System (HCFS) auf Objektspeicher zuzugreifen. Dies wird in der Tat direkt über das S3a-Protokoll unterstützt. Mit der Zeit wird die Anzahl der Tools, die Data-Lake-Repositories auf Objektspeicherbasis nutzen können, größer werden.

Darüber hinaus unterstützen viele moderne Objektspeichersysteme auch Scale-Out (sowohl für Kapazität als auch für Performance). Dies ist ein weiterer, wichtiger Vorteil für die Verwendung eines Objektspeichers für große Analysevorhaben: Rechen- und Speicherressourcen können unabhängig voneinander skaliert werden. Nehmen wir zum Beispiel große MapReduce-Workloads: Benutzer können nun Compute-Tier als Performance-Host für die MapReduce-Anwendung auf das erforderliche Niveau bringen und dann den Objektspeicher im Hinblick auf Kapazität und Durchsatz unabhängig davon skalieren.

Paul Speciale, Chief Product Officer, Scality.
Paul Speciale, Chief Product Officer, Scality.
(Bild: Scality)

Damit entfällt die Notwendigkeit, beide im Gleichschritt zu skalieren, was eindeutige Kostenvorteile verspricht. Die unabhängige Skalierung bietet die richtige Compute-Performance für die Datenanalyse – on demand. Dies kann die Gesamtkosten einer Data-Lake-Lösung erheblich reduzieren, insbesondere bei massiver Skalierung.

*Der Autor: Paul Speciale, Chief Product Officer, Scality

(ID:47414082)