Datenbanksystem Was ist ein Data Warehouse?
Anbieter zum Thema
Ein Data Warehouse ist ein zentrales Datenlager, das Daten aus verschiedenen heterogenen Quellen extrahiert, sammelt, aufbereitet, speichert und für Analysezwecke bereitstellt. Es handelt sich um eine spezielle Art von Datenbanksystem, das für Datenanalysen optimiert ist und nachgelagerte Systeme versorgt.

Der englische Begriff Data Warehouse, abgekürzt DWH oder DW, lässt sich mit „Datenlager“ ins Deutsche übersetzen. Es handelt sich um eine spezielle Art von Datenbanksystem, das Daten aus verschiedenen heterogenen Datenquellen extrahiert, sammelt, aufbereitet, speichert und für Analysezwecke nachgelagerten Systemen bereitstellt.
Das Datenlager kann große Datenmengen aufnehmen und ist speziell für deren Analyse ausgelegt. Ein DWH schafft eine zentrale Datenbasis und ist beispielsweise Teil der Business Intelligence (BI) eines Unternehmens. Vorteil eines Data Warehouses ist, dass Informationen aus vielen Quellen konsistent und strukturiert für Anwender und Anwendungen bereitgestellt werden. Zudem entsteht eine globale Sicht auf die verschiedenen Datenbestände. Die Daten eines Data Warehouses lassen sich nach Mustern untersuchen und zur Ermittlung unternehmerischer Kennzahlen einsetzen.
Prozesse, Architektur und Funktionsweise eines Data Warehouses
Die Gesamtheit aller Prozesse zur Datenbeschaffung und Datenextraktion, Datenhaltung, Datenverwaltung, Datenversorgung und Datenauswertung wird als „Data Warehousing“ bezeichnet. Das Datenlager bezieht seine Daten aus verschiedenen Quellsystemen. In einer Staging-Area des Data Warehouses werden die extrahierten Daten strukturiert und transformiert. Die Daten gelangen anschließend in die eigentliche Datenbank des Datenlagers. Diese parallele Speicherplattform, auch als „Data Presentation Area“ bezeichnet, ermöglicht nachgelagerten Systemen einen komfortablen Zugriff auf die benötigten Daten.
Um auf die Daten zuzugreifen, werden unterschiedliche Data-Access-Tools verwendet. Das Auslesen des Datenlagers ist beispielsweise mit SQL-Abfragen möglich. Das Befüllen eines Data Warehouses mit Daten findet in regelmäßigen Abständen oder manuell ausgelöst statt. Teilweise erfolgt die Versorgung der Datenlager in Echtzeit. Dadurch ist es möglich, Echtzeitanalysen durchzuführen oder operative Systeme zu steuern.
Einsatzmöglichkeiten eines Data Warehouses
Ein Datenlager liefert die benötigten Daten zur Analyse von Unternehmensprozessen und zur Ermittlung unternehmerischer Kennzahlen. Typische Einsatzmöglichkeiten eines Data Warehouses sind:
- Analysen von Geschäftsprozessen,
- Analysen von Produktionsprozessen,
- Ermitteln von Kennzahlen,
- Ermitteln von verborgenen Zusammenhängen durch Data-Mining und Online-Analytical-Processing,
- Erstellen von Reports und Statistiken,
- Ressourcen- und Kostenermittlung,
- Schaffung einer globalen Unternehmenssicht auf heterogene Datenbestände,
- Datennutzung für Prozesse der Industrie 4.0.
Abgrenzung des Data Warehouses vom Data Lake und Data Lakehouse
Der Unterschied zwischen Data Warehouse und Data Lake ist, dass in einem Data Lake große Mengen von Rohdaten gesammelt werden. Sie sind im Gegensatz zu einem Datenlager nicht nach bestimmten Vorgaben aufbereitet und strukturiert. Ein Data Lake sammelt die Daten verschiedener Datenquellen in ihrem jeweiligen Format. Er hat sehr große Speicherkapazität und kann riesige Datenmengen semistrukturierter oder unstrukturierter Daten jeglichen Formats kosteneffizient aufnehmen. Für die weitere Verwendung der heterogenen Daten müssen diese in einem Zwischenschritt aufbereitet und organisiert werden.
Ein Data Lakehouse kombiniert die Vorteile eines Data Warehouses und eines Data Lakes. Es bietet die Flexibilität und Kosteneffizienz eines Data Lakes und versorgt gleichzeitig Analyseprozesse mit passend organisierten, strukturierten und aufbereiteten Daten.
(ID:48492352)