Vier Wege für die erfolgreiche Datennutzung Cloud-basierter Data Lakes

Data-Management: „Datensumpf“ vermeiden Vier Wege für die erfolgreiche Datennutzung Cloud-basierter Data Lakes

30.07.2021 Von André Ambrosius*

Anbieter zum Thema

Seagate Technology (Netherlands) BV (Germany Branch)

Daten stehen bei Unternehmen nach wie vor hoch im Kurs – den wirklichen Wert dieser Daten können sie aber nur selten beziffern oder voll ausschöpfen. Laut Zahlen des auf einer IDC-Studie basierten „Rethink Data“-Berichts von Seagate werden nur 32 Prozent der Daten, die Unternehmen zur Verfügung stehen, vollständig genutzt. Zu den größten Hindernissen gehören dabei ineffektives Datenmanagement, schnelles und ausuferndes Datenwachstum sowie die mangelnde Sicherstellung von Datensicherheit.

Wenn sich der Data Lake zum Datensumpf entwickelt, wird es nahezu unmöglich, die gesuchten Informationen herauszufischen.(Bild: ©Cesar Machado - stock.adobe.com) — Wenn sich der Data Lake zum Datensumpf entwickelt, wird es nahezu unmöglich, die gesuchten Informationen herauszufischen.
(Bild: ©Cesar Machado - stock.adobe.com)

Um den größtmöglichen Nutzen aus ihren Daten ziehen zu können, setzen viele Unternehmen zunehmend auf Cloud-basierte Data Lakes. Data Lakes können Hunderte von Petabyte (PB) oder mehr an Daten umfassen. Ein großes Risiko dabei ist, dass sie sich – wenn sie unbeaufsichtigt bleiben – in einen größtenteils ungenutzten Datensumpf verwandeln können, in dem inaktive, aber potenziell nützliche Daten auf Speichermedien lagern. Um zu verhindern, dass sich „Datenseen“ in einen „Datensumpf“ verwandeln, und sicherzustellen, dass Unternehmen den größtmöglichen Nutzen beispielsweise für geschäftliche Herausforderungen aus ihren Daten ziehen können, sollten CIOs, CTOs und Data Architects die folgenden vier Punkte berücksichtigen.

1. Ziele klar definieren

Mit einem klaren Ziel vor Augen können Unternehmen die zu sammelnden Daten leicht identifizieren und die besten Machine-Learning-Technologien (ML) für die Erkenntnisgewinnung bestimmen.

Bei einem Bikesharing-Dienst beispielweise können die Daten der Sensoren am Fahrrad gesammelt und in Echtzeit in einem Cloud-basierten Datenspeicher abgelegt werden. Alle On-Bike-Informationen (wie lokale Dienste und Informationen zum Fahrradstatus) sind für den Betreiber der Plattform einsehbar und unterstützen ihn, Entscheidungen zu treffen – zum Beispiel die richtige Anzahl von Fahrrädern in verschiedenen Gebieten einzusetzen, kaputte Fahrräder zu warten, wann und wo es nötig ist – und so letztlich das Nutzererlebnis zu verbessern.

Damit dies effektiv funktioniert, ist es wichtig, dass kontinuierlich neue Daten in den Data Lake eingespeist werden, um anschließend mit den richtigen Software-Anwendungen bestmögliche Ergebnisse zu erzielen. Investitionen in die Speicherinfrastruktur können so einen positiven Effekt auf die Geschäftsergebnisse vieler Unternehmen erzielen.

2. Je mehr Informationen, desto besser

Unternehmen müssen in der Lage sein, die richtigen Daten zu erfassen, sie zu identifizieren, sie dort zu speichern, wo sie benötigt werden, und sie den Entscheidungsträgern in einer nutzbaren Form zur Verfügung zu stellen. Eine zielführende Datennutzung beginnt also bereits mit der Datenerfassung.

Angesichts des starken Datenwachstums durch die Verbreitung von IoT-Anwendungen und die Einführung von 5G haben viele Unternehmen jedoch Schwierigkeiten, Schritt zu halten, und erfassen nicht alle verfügbaren Daten. Immerhin: Immer mehr Unternehmen verstehen, dass sie so viele Daten wie möglich erfassen und vor allem speichern sollten, um den vorhandenen Mehrwert nicht zu verlieren. Dies umfasst den bereits heute nutzbaren Wert der Daten und den, der mit zukünftigen Anwendungen kommt.

Die wichtigsten IT-Fachbegriffe verständlich erklärt. (© aga7ta - Fotolia)

Hinzu kommt eine weitere positive Entwicklung: In den Anfängen von Data Lakes war es den Power-Usern vorbehalten, einen vollumfänglichen Überblick über den Data Lake zu haben und die richtigen Daten zu finden. Durch den Einzug der Structured Query Language (SQL) haben mittlerweile aber auch „normale“ Nutzer mehr Zugang zu den Daten. Für diese Anwender liegt der Fokus mehr auf den Ergebnissen. Künstliche Intelligenz (KI) und maschinelles Lernen (ML) helfen ihnen dabei, die Daten zu filtern und nach Mustern zu suchen. ML ermöglicht heutzutage Analysen nahezu in Echtzeit, erweiterte Analysen und Visualisierungen.

Wichtig ist in diesem Zusammenhang auch die Übertragung von Daten auf einen gut verwalteten Cloud-Speicherdienst. Dieser hilft Unternehmen, ihre täglich generierten Daten in eine skalierbare Datenarchitektur zu überführen. Mobile Speicherlösungen mit hoher Kapazität, wie das Lyve Mobile von Seagate, ermöglichen es Unternehmen zudem, ihre Daten zwischen Edge und Cloud-Kern zusammenzuführen, zu speichern, zu verschieben und zu aktivieren. Solche Lösungen bieten auch eine schnellere Möglichkeit, große Datenmengen physisch von einem Speicherort zum anderen zu verschieben.

Neues eBook

Wie baut man heutzutage eine moderne Speicherinfrastruktur?

SDS für den Mittelstand

Lesen Sie unter anderem:
# Erst Software macht Storage geschmeidig. SDS – wieso, wozu, was soll das?
# So baut man heute moderne Speicherinfrastrukturen. SDS ist nicht gleich SDS.
# So machen Sie Ihren Storage fit für die Zukunft. Wohin entwickelt sich SDS?
# Strategische Empfehlungen speziell für KMU. Ausgestaltung einer erfolgreichen Storage- und Datenstrategie.

>>> eBook „SDS für den Mittelstand“ downloaden

3. Regelmäßige Auswertung der Daten

Unternehmen müssen Datensätze, die sie in einem Cloud-basierten Data Lake verwalten, regelmäßig überprüfen. Andernfalls besteht die Gefahr, dass dieser immer unübersichtlicher und schwieriger zu nutzen wird, zum Beispiel wenn es darum geht, die Muster in den Daten zu finden, nach denen sie suchen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Der Einsatz von Cloud-Speicherdiensten mit KI und Automatisierungs-Software wird voraussichtlich den größten Einfluss darauf haben, große Data Lakes besser zu verwalten und sich einen Überblick über die Informationen zu verschaffen. Die beste Vorgehensweise ist, zuerst einen Datensatz auszuwählen und diesen mit ML-Technologien zu analysieren. Sobald ein zufriedenstellendes Ergebnis erzielt wurde, wendet das Unternehmen diese Vorgehensweise auf weitere Datensätze an. Bei der Betrugserkennung in einer Bank werden beispielsweise KI-basierte Systeme entwickelt, die anhand von Parametern wie Transaktionshäufigkeit und -größe sowie Art des Händlers lernen, welche Art von Transaktionen einen Betrug darstellt.

Daten, die veraltet oder nicht mehr relevant sind, können in ein anderes Datenarchiv übertragen und aufbewahrt werden. Zu diesem Zweck kann ein Unternehmen einen Datenübertragungsdienst nutzen. Damit lassen sich große Datenmengen über private, öffentliche oder hybride Cloud-Umgebungen hinweg verschieben und eine schnelle, einfache und sichere Edge-Speicherung und Datenübertragung ermöglichen sowie die Gewinnung von Erkenntnissen beschleunigen.

4. DataOps nutzen

Mass Data Operations, oder DataOps, werden von IDC als die Disziplin der Verbindung von denjenigen definiert, die Daten erzeugen und die Daten nutzen. DataOps sollten Teil jeder erfolgreichen Datenmanagement-Strategie sein. Zusätzlich zu DataOps umfasst eine solide Datenmanagementstrategie die Datenorchestrierung von den Endpunkten zum Kern sowie die Datenarchitektur und -sicherheit. Das Ziel des Datenmanagements ist es, den Anwendern eine ganzheitliche Sicht und den Zugriff auf die Daten sowie ihre Nutzung zu ermöglichen. Dies gilt sowohl für Daten, die in Bewegung sind, als auch für „ruhende“ Daten.

Neuer Podcast: Storage-Insider im Gespräch mit Christian Kubik von Commvault zum Thema „Backup in der Praxis“. (Vogel IT-Medien)

Fazit

Unternehmen generieren heutzutage große Datenmengen, die laut Seagates Rethink-Data-Bericht von 2020 bis 2022 mit einer durchschnittlichen jährlichen Wachstumsrate von 42 Prozent weiter zunehmen werden.

Eine neue, von Seagate in Auftrag gegebene IDC-Studie ergab, dass Unternehmen diese Daten häufig zwischen verschiedenen Speicherorten verschieben, einschließlich Endpunkten, Edge und Cloud. Mehr als die Hälfte verschiebt täglich, wöchentlich oder monatlich Daten zwischen den Speicherorten. Die durchschnittliche Größe eines physischen Datentransfers liegt bei über 140 TB. Je schneller Unternehmen diese Daten vom Edge in die Cloud verschieben können, desto schneller können sie Erkenntnisse gewinnen und einen Mehrwert aus ihren Daten ziehen.

Für den langfristigen Erfolg von Datenmanagementstrategien in Unternehmen ist es essenziell, die Daten aktiv zu halten und so die Entstehung eines Datensumpfes zu vermeiden. Ein aktiver Data Lake bietet aufschlussreiche Erkenntnisse und bildet so die Basis für den Erfolg digitaler Infrastrukturen und Geschäftsinitiativen.

*Der Autor: André Ambrosius, Regional Sales Manager Enterprise DACH bei Seagate Technology

(ID:47494992)