Datenabstammung

Was ist Data Lineage?

| Autor / Redakteur: Stefan Luber / Dr. Jürgen Ehneß

Die wichtigsten IT-Fachbegriffe verständlich erklärt.
Die wichtigsten IT-Fachbegriffe verständlich erklärt. (Bild: © aga7ta - Fotolia)

Mit Data Lineage lässt sich die Herkunft und Abstammung eines Datenobjekts ermitteln. Alle Verarbeitungs- und Transformationsschritte von den Quelldaten bis zum betrachteten Datenobjekt sind nachvollziehbar. In Data-Warehouse-Systemen gestattet es Data Lineage, von den aus verschiedenen Quellen aggregierten und anschließend verarbeiteten Daten zu den Ursprungsdaten zu gelangen.

Wörtlich bedeutet der englische Begriff Data Lineage „Datenabstammung“ oder „Datenherkunft“. Alternative Begriffe sind „Data Pedigree“, „Data Provenance“, „Datenstammbaum“ oder „Datenbiografie“. Es handelt sich um eine Data-Intelligence-Technik, die es ermöglicht, die Herkunft oder die Abstammung eines Datenobjekts zu ermitteln.

Hierfür werden sowohl die Ursprungsdatenobjekte als auch sämtliche Verarbeitungs- und Transformationsschritte, die zur Erzeugung der betrachteten Ausgangsdaten angewandt wurden, erfasst. In vielen Datenbankanwendungen ist neben den eigentlichen Nutzdatenobjekten die Abstammung der Daten von Bedeutung. So ist beispielsweise für das Data Warehouse, das seine Inhalte durch die Anbindung vieler verschiedener Datenquellen und die Aggregation sowie die Transformation der Daten erhält, die Rückverfolgbarkeit der Daten sehr wichtig. Die Historie der Daten trägt zu mehr Transparenz in der Analyse der Daten bei und ist beispielsweise zur Einhaltung von Compliance-Vorgaben notwendig.

Funktionsprinzipien zur Rückverfolgung der Daten

Zur Ermittlung der Datenherkunft muss die komplette Historie eines Datenobjekts von den Ausgangsdaten über alle Transformationsschritte bis zu den Eingangsdaten lückenlos nachverfolgbar sein. Der sogenannte ETL-Prozess (Extract, Transform, Load), bei dem Daten aus unterschiedlich strukturierten oder unstrukturierten Datenquellen extrahiert, transformiert und in eine Zieldatenbank geladen werden, ist quasi rückwärts zu beschreiben.

Technisch wird dies erreicht, indem die durchgeführten Transformationen so modelliert werden, dass für bestimmte Ausgangswerte die zugehörigen Ursprungswerte bestimmt werden können. Die Voraussetzung ist, dass die angewandten Transformationen stabil und deterministisch sind. Das bedeutet, dass die Transformation bei gleichen Eingabedaten immer zu den gleichen Ausgabedaten gelangen.

Je nach Art der Transformation lässt sich die Ermittlung der Ursprungsdaten beispielsweise durch inverse Transformationsfunktionen durchführen. Es existieren verschiedene Transformationsklassen wie Aggregatoren, Dispatcher, Filter oder Blackboxes, für die die Rückverfolgbarkeit der durchgeführten Transformation sichergestellt sein muss.

Ziele der Data Lineage

Ein Ziel der Rückverfolgbarkeit der Daten ist es, für mehr Transparenz in der Datenanalyse zu sorgen. Die Qualität der Analyseergebnisse lässt sich auf Basis einer bekannten Datenherkunft besser beurteilen, und ein potenzieller Fehler lässt sich einfacher beseitigen. Vor allem für ein Data Warehouse ist die Transparenz der Datenflüsse wichtig. Nur so lassen sich Beziehungen zwischen den verschiedenen Datenobjekten für das gesamte Unternehmen nachvollziehen. Weitere Ziele sind die Einhaltung der Richtlinien zur Datenverarbeitung und die Konformität zu bestehenden Compliance-Vorgaben.

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46310118 / Definitionen)