Mobile-Menu

Das A und O für optimale Performance Strukturierung von Data Lakes

Ein Gastbeitrag von Christoph Storzum* 4 min Lesedauer

Anbieter zum Thema

Je größer Data Lakes werden, desto schwieriger wird es, die riesigen Datenmengen zu analysieren und Erkenntnisse abzuleiten. Angesichts des globalen Datenvolumens, das bis 2025 voraussichtlich 175 Zettabytes erreichen wird, stellt dies keine geringe Herausforderung dar. Data Lakes können schnell zu Datensümpfen mutieren, in denen die Daten bei steigendem Volumen immer schwieriger zu finden und zu identifizieren sind.

IT-Teams konzentrieren sich beim Aufbau von Data Lakes oft zu sehr auf die Analysetools anstatt aufs Speicher-Repository.(Bild:  the_lightwriter - stock.adobe.com)
IT-Teams konzentrieren sich beim Aufbau von Data Lakes oft zu sehr auf die Analysetools anstatt aufs Speicher-Repository.
(Bild: the_lightwriter - stock.adobe.com)

Für Rechenzentren bedeutet das einen zusätzlichen Zeit- und Kostenaufwand. Die Teams sind unter Umständen nicht in der Lage, das zu finden, was sie benötigen – und sie wissen vielleicht nicht einmal, wo sie überhaupt suchen sollen. Für den Endnutzer ein Problem, das sich direkt auf das jeweilige Betätigungsfeld auswirkt – seien es medizinische Forschung, Finanztransaktionen, Einzelhandelsberichte oder einfach der effizientere Betrieb von E-Commerce-Systemen.

In der Vergangenheit erstellten Teams Data-Warehouses mit Hilfe von Datenbankmanagement-Systemen. Da viele Datenbanken nicht für unstrukturierte Daten geeignet waren, wurde zusätzlich ein separates Dateisystem-Repository verwendet, um verwandte Dateien, Bilder und Protokolle zu verknüpfen. Leider bedeutete dies für die Betreiber von Rechenzentren, dass sie zwei Daten-Repositorien verwalten und bei Datenänderungen synchron halten mussten.

Beim Aufbau von Data Lakes legen Teams den Schwerpunkt zu oft auf die Eignung und die Fähigkeiten ihrer Analysetools. Stattdessen sollten sie das Speicher-Repository, dass die Daten beherbergt, genau unter die Lupe nehmen, um sicherzustellen, dass es erstens Daten aus verschiedenen Quellen verarbeiten, zweitens Leistung und Kapazität skalieren und drittens Daten für die jeweils korrekten Benutzer und Anwendungen zugänglich machen kann.

Dateisysteme vs. Objektspeicher für Data Lakes

Wie bereits erwähnt, zwangen althergebrachte, relationale Datenbankmanagement-Systeme (RDBMS) den Daten eine starre Struktur auf und verlangten von den Betreibern von Rechenzentren, komplexe ETL-Schritte (Extract/Transform/Load) mit den Daten durchzuführen, um sie in das Datenbankmodell einzupassen. Heutzutage besteht der Hauptvorteil eines Data Lake darin, dass Entwickler Daten aus jeder externen Quelle und in jedem Format exportieren und einspeisen können.

Das Hinzufügen eines Dateisystems birgt vor allem zwei Nachteile für Data Lakes:

  • Es werden keine erweiterbaren Benutzer- oder Anwendungsmetadaten unterstützt. Dies macht ein separates Datenbanksystem erforderlich, um die Tags und Attribute zu erfassen, die für die Taxonomie und Anreicherung der im Dateisystem gespeicherten Daten erforderlich sind, und um indexoptimierte Abfragen zu ermöglichen. Für Rechenzentren stellt es eine große Belastung dar, zwei Systeme parallel zu verwalten.
  • Dateisysteme haben eine starre Struktur, die durch übliche Ordnerhierarchien vorgegeben ist. Es gibt eigentlich nur einen Weg, um auf die Daten zuzugreifen – und der besteht darin, durch die Dateisystemhierarchie zu navigieren, bis der Benutzer findet, was er braucht. Das ist nicht nur ineffizient, sondern vor allem auch statisch und starr.

Im Gegensatz dazu bieten Objektspeicher überzeugende Vorteile für Data Lakes:

  • Der Bedarf einer separaten Datenbank entfällt durch erweiterbare Metadaten. Objektspeicher können sowohl den Speicher für die Nutzdaten als auch erweiterbare Metadaten (benutzer- oder anwendungsdefiniert) verwalten, die mit jedem Objekt gespeichert werden. Damit entfällt die Notwendigkeit einer von der Speicherlösung getrennten Datenbank, wie sie bei einem Dateisystem erforderlich ist. Metadaten können im Laufe der Zeit dynamisch verwendet werden, um Daten mit Kontext/Semantik/Taxonomie zu versehen. Stellen Sie sich den Unterschied zwischen dem alten MS-Outlook-E-Mail-System und Gmail vor, das Tagging und Labels anbietet, um den E-Mail-Inhalt zu strukturieren.
  • Gesteigerte Leistung. Einige Objektspeichersysteme auf Enterprise-Niveau unterstützen die integrierte Metadatensuche mit indexoptimierten Abfragefunktionen, welche die Abfragezeiten je nach Größe des Datensatzes von Stunden auf Minuten reduzieren, indem zeitaufwendige Datenscans durch schnelle Indexabfragen ersetzt werden.
  • Einheitliche Systemverwaltung für Rechenzentrumsbetreiber. Durch die Zusammenlegung des Data-Lake-Speichers aus einer Datenbank und einem Dateisystem wird die Verwaltung deutlich vereinfacht. Benutzer- und Leistungsmanagement, Überwachung und Skalierung des Systems werden konsolidiert. Der Data Lake kann bei Bedarf nahtlos erweitert werden, was eine kontinuierliche Betriebszeit ohne Ausfallzeiten oder Unterbrechungen gewährleistet.
  • Unbegrenzte Zugriffspfade auf Daten. Die Objektspeicherung ermöglicht den Zugriff auf Daten in zeitlicher Reihenfolge, nach Schlüsselpräfix oder nach Metadatenordnung. Benutzer können auf einzelne Objekte direkt nach Schlüssel zugreifen oder aber Listen von Objekten erstellen (bei Bedarf auch mit Filtern auf der Grundlage von Tags oder Suchvorgängen auf der Grundlage von Metadaten).
  • Den optimalen Data Lake schaffen. Objektspeicher helfen bei der langfristigen Optimierung von Data Lakes, da sie Informationen in Containern flexibler Größe – auch als Objekte bezeichnet – organisieren. Jedes Objekt umfasst sowohl die Daten selbst als auch die zugehörigen Metadaten und verfügt über eine weltweit eindeutige Kennung anstelle eines Dateinamens und Dateipfads. Diese Systeme können mit benutzerdefinierten Attributen erweitert werden, um zusätzliche, dateibezogene Informationen zu verarbeiten, was das Auffinden der benötigten Informationen erheblich erleichtert. Es gibt keine Begrenzung des Datenvolumens, was signifikant ist, wenn man bedenkt, dass Data Lakes schnell Petabyte-Größen und mehr erreichen können.

Mit Objektspeicher können Rechenzentren die wachsende Kapazität und Skalierung bewältigen. Sie müssen nicht mehr durch einen metaphorischen Sumpf waten, sondern verfügen über eine Plattform, auf der sie einen agilen, modernen Data Lake für optimale Leistung strukturieren können.

* Der Autor: Christoph Storzum, Regional Director DACH, Scality

Aktuelles eBook

Alle Daten im Griff – der Weg zum passenden Data-Management

eBook Data-Management
eBook „Data-Management“
(Bild: Storage-Insider)

Daten nur zum Selbstzweck zu speichern, kann sich heute praktisch kein Unternehmen mehr leisten. Um den Überblick zu behalten und Nutzen aus den gespeicherten Daten zu ziehen, wird ein entsprechendes Datenmanagement benötigt. Unser neues eBook erläutert detailliert, worauf es dabei ankommt, welche Ansätze es gibt und wo Potenziale zur Verbesserung liegen.

Die Themen im Überblick:

  • Data-Management lokal und in der Private Cloud
  • Data-Management in der Cloud
  • Globales Data-Management

(ID:49324027)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung