Mobile-Menu

Datensee Was ist ein Data Lake?

Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Dr. Jürgen Ehneß

Ein Data Lake ist ein großer Informationsspeicher. Er nimmt Daten aus unterschiedlichen Quellen im Rohformat auf. Die Daten können sowohl strukturiert als auch unstrukturiert sein. Auf Basis der Daten lassen sich Big-Data-Analysen durchführen. Die Anpassung der Daten an das benötigte Format findet erst zum Analysezeitpunkt statt.

Anbieter zum Thema

Die wichtigsten IT-Fachbegriffe verständlich erklärt.
Die wichtigsten IT-Fachbegriffe verständlich erklärt.
(Bild: © aga7ta - Fotolia)

Der Begriff Data Lake bezeichnet einen sehr großen Informationsspeicher. Die deutsche Übersetzung lautet „Datensee“. Im Gegensatz zu einer herkömmlichen Datenbank nimmt er Daten aus verschiedensten Quellen in ihrem jeweiligen Rohformat auf. Die Daten werden vor der Aufnahme in den Speicher weder umformatiert noch einer umfangreichen Strukturierung oder Validierung unterzogen. Sie können strukturiert oder unstrukturiert sein.

Neben zahlen- oder textbasierten Daten finden sich auch Multimediadateien wie Bilder und Videos oder andere Datenformate im Speicherbereich eines Data Lakes. Der Informationsspeicher bildet die Datenbasis für Big-Data-Analysen. Erst zum eigentlichen Analysezeitpunkt findet die Strukturierung oder Umformatierung der Daten statt.

Merkmale eines Data Lakes

Data Lakes besitzen mehrere typische Merkmale, um die Anforderungen der auf den gespeicherten Informationen aufsetzenden Analyseanwendungen zu erfüllen. Sie müssen in der Lage sein, unterschiedlichste Datenformate und Dateninhalte aufzunehmen. Zudem benötigen sie zahlreiche Schnittstellen zu den verschiedenen Quellen, um sie mit den Daten zu befüllen. Für eine flexible Nutzung der Daten sind die gängigen Protokolle und Frameworks der Datenbankanwendungen und -systeme zu unterstützen. Eine weiteres Merkmal ist die Erfüllung der Vorgaben des Datenschutzes und der Datensicherheit. Es werden eine rollenbasierte Zugriffssteuerung und Verschlüsselung benötigt. Ebenfalls bereitzustellen sind Mechanismen zur Sicherung und Wiederherstellung der abgelegten Daten.

Abgrenzung zwischen Data Warehouse und Data Lake

Sollen große Datenmengen gespeichert und für Anwendungen bereitgestellt werden, fallen häufig die Begriffe „Data Lake“ und „Data Warehouse“. Bei beiden handelt es sich um große Informationsspeicher. Sie unterscheiden sich jedoch konzeptionell. In einem Data Warehouse werden die Daten aus den verschiedenen Quellen direkt bei der Übernahme in die für die Analysen benötigten Formate und Strukturen überführt. Ein Data Lake nimmt die Daten unverändert auf, unabhängig davon, ob sie für spätere Analysen relevant sind oder das richtige Format haben. Er muss die zu einem späteren Zeitpunkt durchgeführten Analysen nicht kennen. Erst zu dem Zeitpunkt, zu dem die Daten tatsächlich benötigt werden, findet die Umformatierung und Strukturierung statt. Aufgrund der Tatsache, dass der Data Lake große Datenmengen im Rohformat bereithält, ist er für sich verändernde oder zukünftige Anforderungen flexibler einsetzbar als eine Data Warehouse.

Vorteile eines Data Lakes

Vorteile eines Data Lakes sind:

  • Aufnahme großer Datenmengen,
  • schnelle Speicherung großer Datenmengen aus unterschiedlichsten Quellen, da keine Umformatierung oder Anpassung stattfindet,
  • geringe Anforderungen hinsichtlich Rechenleistung,
  • große Flexibilität bei der Auswertung der Daten,
  • kein Aussortieren von Daten und keine Einschränkungen der Analysemöglichkeiten.

(ID:46120984)