Datenabstammung Was ist Data Lineage?
Mit Data Lineage lässt sich die Herkunft und Abstammung eines Datenobjekts ermitteln. Alle Verarbeitungs- und Transformationsschritte von den Quelldaten bis zum betrachteten Datenobjekt sind nachvollziehbar. In Data-Warehouse-Systemen gestattet es Data Lineage, von den aus verschiedenen Quellen aggregierten und anschließend verarbeiteten Daten zu den Ursprungsdaten zu gelangen.
Anbieter zum Thema

Wörtlich bedeutet der englische Begriff Data Lineage „Datenabstammung“ oder „Datenherkunft“. Alternative Begriffe sind „Data Pedigree“, „Data Provenance“, „Datenstammbaum“ oder „Datenbiografie“. Es handelt sich um eine Data-Intelligence-Technik, die es ermöglicht, die Herkunft oder die Abstammung eines Datenobjekts zu ermitteln.
Hierfür werden sowohl die Ursprungsdatenobjekte als auch sämtliche Verarbeitungs- und Transformationsschritte, die zur Erzeugung der betrachteten Ausgangsdaten angewandt wurden, erfasst. In vielen Datenbankanwendungen ist neben den eigentlichen Nutzdatenobjekten die Abstammung der Daten von Bedeutung. So ist beispielsweise für das Data Warehouse, das seine Inhalte durch die Anbindung vieler verschiedener Datenquellen und die Aggregation sowie die Transformation der Daten erhält, die Rückverfolgbarkeit der Daten sehr wichtig. Die Historie der Daten trägt zu mehr Transparenz in der Analyse der Daten bei und ist beispielsweise zur Einhaltung von Compliance-Vorgaben notwendig.
Funktionsprinzipien zur Rückverfolgung der Daten
Zur Ermittlung der Datenherkunft muss die komplette Historie eines Datenobjekts von den Ausgangsdaten über alle Transformationsschritte bis zu den Eingangsdaten lückenlos nachverfolgbar sein. Der sogenannte ETL-Prozess (Extract, Transform, Load), bei dem Daten aus unterschiedlich strukturierten oder unstrukturierten Datenquellen extrahiert, transformiert und in eine Zieldatenbank geladen werden, ist quasi rückwärts zu beschreiben.
Technisch wird dies erreicht, indem die durchgeführten Transformationen so modelliert werden, dass für bestimmte Ausgangswerte die zugehörigen Ursprungswerte bestimmt werden können. Die Voraussetzung ist, dass die angewandten Transformationen stabil und deterministisch sind. Das bedeutet, dass die Transformation bei gleichen Eingabedaten immer zu den gleichen Ausgabedaten gelangen.
Je nach Art der Transformation lässt sich die Ermittlung der Ursprungsdaten beispielsweise durch inverse Transformationsfunktionen durchführen. Es existieren verschiedene Transformationsklassen wie Aggregatoren, Dispatcher, Filter oder Blackboxes, für die die Rückverfolgbarkeit der durchgeführten Transformation sichergestellt sein muss.
Ziele der Data Lineage
Ein Ziel der Rückverfolgbarkeit der Daten ist es, für mehr Transparenz in der Datenanalyse zu sorgen. Die Qualität der Analyseergebnisse lässt sich auf Basis einer bekannten Datenherkunft besser beurteilen, und ein potenzieller Fehler lässt sich einfacher beseitigen. Vor allem für ein Data Warehouse ist die Transparenz der Datenflüsse wichtig. Nur so lassen sich Beziehungen zwischen den verschiedenen Datenobjekten für das gesamte Unternehmen nachvollziehen. Weitere Ziele sind die Einhaltung der Richtlinien zur Datenverarbeitung und die Konformität zu bestehenden Compliance-Vorgaben.
(ID:46310118)