Strukturierung von Data Lakes

Das A und O für optimale Performance Strukturierung von Data Lakes

14.04.2023 Ein Gastbeitrag von Christoph Storzum* 4 min Lesedauer

Anbieter zum Thema

Je größer Data Lakes werden, desto schwieriger wird es, die riesigen Datenmengen zu analysieren und Erkenntnisse abzuleiten. Angesichts des globalen Datenvolumens, das bis 2025 voraussichtlich 175 Zettabytes erreichen wird, stellt dies keine geringe Herausforderung dar. Data Lakes können schnell zu Datensümpfen mutieren, in denen die Daten bei steigendem Volumen immer schwieriger zu finden und zu identifizieren sind.

IT-Teams konzentrieren sich beim Aufbau von Data Lakes oft zu sehr auf die Analysetools anstatt aufs Speicher-Repository.(Bild: the_lightwriter - stock.adobe.com) — IT-Teams konzentrieren sich beim Aufbau von Data Lakes oft zu sehr auf die Analysetools anstatt aufs Speicher-Repository.
(Bild: the_lightwriter - stock.adobe.com)

Für Rechenzentren bedeutet das einen zusätzlichen Zeit- und Kostenaufwand. Die Teams sind unter Umständen nicht in der Lage, das zu finden, was sie benötigen – und sie wissen vielleicht nicht einmal, wo sie überhaupt suchen sollen. Für den Endnutzer ein Problem, das sich direkt auf das jeweilige Betätigungsfeld auswirkt – seien es medizinische Forschung, Finanztransaktionen, Einzelhandelsberichte oder einfach der effizientere Betrieb von E-Commerce-Systemen.

In der Vergangenheit erstellten Teams Data-Warehouses mit Hilfe von Datenbankmanagement-Systemen. Da viele Datenbanken nicht für unstrukturierte Daten geeignet waren, wurde zusätzlich ein separates Dateisystem-Repository verwendet, um verwandte Dateien, Bilder und Protokolle zu verknüpfen. Leider bedeutete dies für die Betreiber von Rechenzentren, dass sie zwei Daten-Repositorien verwalten und bei Datenänderungen synchron halten mussten.

Beim Aufbau von Data Lakes legen Teams den Schwerpunkt zu oft auf die Eignung und die Fähigkeiten ihrer Analysetools. Stattdessen sollten sie das Speicher-Repository, dass die Daten beherbergt, genau unter die Lupe nehmen, um sicherzustellen, dass es erstens Daten aus verschiedenen Quellen verarbeiten, zweitens Leistung und Kapazität skalieren und drittens Daten für die jeweils korrekten Benutzer und Anwendungen zugänglich machen kann.

Dateisysteme vs. Objektspeicher für Data Lakes

Wie bereits erwähnt, zwangen althergebrachte, relationale Datenbankmanagement-Systeme (RDBMS) den Daten eine starre Struktur auf und verlangten von den Betreibern von Rechenzentren, komplexe ETL-Schritte (Extract/Transform/Load) mit den Daten durchzuführen, um sie in das Datenbankmodell einzupassen. Heutzutage besteht der Hauptvorteil eines Data Lake darin, dass Entwickler Daten aus jeder externen Quelle und in jedem Format exportieren und einspeisen können.

Das Hinzufügen eines Dateisystems birgt vor allem zwei Nachteile für Data Lakes:

Es werden keine erweiterbaren Benutzer- oder Anwendungsmetadaten unterstützt. Dies macht ein separates Datenbanksystem erforderlich, um die Tags und Attribute zu erfassen, die für die Taxonomie und Anreicherung der im Dateisystem gespeicherten Daten erforderlich sind, und um indexoptimierte Abfragen zu ermöglichen. Für Rechenzentren stellt es eine große Belastung dar, zwei Systeme parallel zu verwalten.

Dateisysteme haben eine starre Struktur, die durch übliche Ordnerhierarchien vorgegeben ist. Es gibt eigentlich nur einen Weg, um auf die Daten zuzugreifen – und der besteht darin, durch die Dateisystemhierarchie zu navigieren, bis der Benutzer findet, was er braucht. Das ist nicht nur ineffizient, sondern vor allem auch statisch und starr.

Im Gegensatz dazu bieten Objektspeicher überzeugende Vorteile für Data Lakes:

Der Bedarf einer separaten Datenbank entfällt durch erweiterbare Metadaten. Objektspeicher können sowohl den Speicher für die Nutzdaten als auch erweiterbare Metadaten (benutzer- oder anwendungsdefiniert) verwalten, die mit jedem Objekt gespeichert werden. Damit entfällt die Notwendigkeit einer von der Speicherlösung getrennten Datenbank, wie sie bei einem Dateisystem erforderlich ist. Metadaten können im Laufe der Zeit dynamisch verwendet werden, um Daten mit Kontext/Semantik/Taxonomie zu versehen. Stellen Sie sich den Unterschied zwischen dem alten MS-Outlook-E-Mail-System und Gmail vor, das Tagging und Labels anbietet, um den E-Mail-Inhalt zu strukturieren.

Gesteigerte Leistung. Einige Objektspeichersysteme auf Enterprise-Niveau unterstützen die integrierte Metadatensuche mit indexoptimierten Abfragefunktionen, welche die Abfragezeiten je nach Größe des Datensatzes von Stunden auf Minuten reduzieren, indem zeitaufwendige Datenscans durch schnelle Indexabfragen ersetzt werden.

Einheitliche Systemverwaltung für Rechenzentrumsbetreiber. Durch die Zusammenlegung des Data-Lake-Speichers aus einer Datenbank und einem Dateisystem wird die Verwaltung deutlich vereinfacht. Benutzer- und Leistungsmanagement, Überwachung und Skalierung des Systems werden konsolidiert. Der Data Lake kann bei Bedarf nahtlos erweitert werden, was eine kontinuierliche Betriebszeit ohne Ausfallzeiten oder Unterbrechungen gewährleistet.

Unbegrenzte Zugriffspfade auf Daten. Die Objektspeicherung ermöglicht den Zugriff auf Daten in zeitlicher Reihenfolge, nach Schlüsselpräfix oder nach Metadatenordnung. Benutzer können auf einzelne Objekte direkt nach Schlüssel zugreifen oder aber Listen von Objekten erstellen (bei Bedarf auch mit Filtern auf der Grundlage von Tags oder Suchvorgängen auf der Grundlage von Metadaten).

Den optimalen Data Lake schaffen. Objektspeicher helfen bei der langfristigen Optimierung von Data Lakes, da sie Informationen in Containern flexibler Größe – auch als Objekte bezeichnet – organisieren. Jedes Objekt umfasst sowohl die Daten selbst als auch die zugehörigen Metadaten und verfügt über eine weltweit eindeutige Kennung anstelle eines Dateinamens und Dateipfads. Diese Systeme können mit benutzerdefinierten Attributen erweitert werden, um zusätzliche, dateibezogene Informationen zu verarbeiten, was das Auffinden der benötigten Informationen erheblich erleichtert. Es gibt keine Begrenzung des Datenvolumens, was signifikant ist, wenn man bedenkt, dass Data Lakes schnell Petabyte-Größen und mehr erreichen können.

Mit Objektspeicher können Rechenzentren die wachsende Kapazität und Skalierung bewältigen. Sie müssen nicht mehr durch einen metaphorischen Sumpf waten, sondern verfügen über eine Plattform, auf der sie einen agilen, modernen Data Lake für optimale Leistung strukturieren können.

* Der Autor: Christoph Storzum, Regional Director DACH, Scality

Aktuelles eBook

Alle Daten im Griff – der Weg zum passenden Data-Management

eBook Data-Management — eBook „Data-Management“
(Bild: Storage-Insider)

Daten nur zum Selbstzweck zu speichern, kann sich heute praktisch kein Unternehmen mehr leisten. Um den Überblick zu behalten und Nutzen aus den gespeicherten Daten zu ziehen, wird ein entsprechendes Datenmanagement benötigt. Unser neues eBook erläutert detailliert, worauf es dabei ankommt, welche Ansätze es gibt und wo Potenziale zur Verbesserung liegen.

Die Themen im Überblick:

Data-Management lokal und in der Private Cloud
Data-Management in der Cloud
Globales Data-Management

eBook „Data-Management“ kostenlos downloaden

(ID:49324027)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.