Mobile-Menu

Datenverarbeitungsschritte Was ist eine Datenpipeline (Data Pipeline)?

Von Dipl.-Ing. (FH) Stefan Luber 2 min Lesedauer

Anbieter zum Thema

Eine Datenpipeline ist eine Abfolge von Datenverarbeitungsschritten, mit deren Hilfe Daten von einem Quellsystem zu einem Zielsystem fließen oder überführt werden. Grundsätzlich wird zwischen Stream- und Batch-Pipelines unterschieden. Eine Unterkategorie der Datenpipeline ist die ETL-Pipeline.

Die wichtigsten IT-Fachbegriffe verständlich erklärt.(Bild:  © aga7ta - Fotolia)
Die wichtigsten IT-Fachbegriffe verständlich erklärt.
(Bild: © aga7ta - Fotolia)

Die englische Bezeichnung für Datenpipeline lautet data pipeline. Der Begriff Pipeline lässt sich mit „Leitung“ oder „Rohrleitung“ ins Deutsche übersetzen.

Bei einer Datenpipeline handelt es um eine Abfolge von Datenverarbeitungsschritten. Durch diese aufeinanderfolgenden Schritte lassen sich Daten von einem Quellsystem zu einem Zielsystem übermitteln beziehungsweise überführen. Die Ausgabe eines Datenverarbeitungsschrittes bildet jeweils die Eingabe des nachfolgenden Datenverarbeitungsschrittes. Durch die Verwendung von Datenpipelines lassen sich Datenflüsse und Datentransformationen systematisch abwickeln und optimieren.

Die Komponenten und grundlegenden Datenverarbeitungsschritte einer Datenpipeline

Aus welchen Schritten und Verarbeitungsaktivitäten sich eine Datenpipeline genau zusammensetzt, ist nicht definiert. Je nach Pipeline können es verschieden viele aufeinanderfolgende Schritte unterschiedlicher Art sein. Dennoch lässt sich nahezu jede Datenpipeline in die folgenden Grundkomponenten und grundlegenden Datenverarbeitungsschritte unterteilen. Die Grundkomponenten sind die Datenquelle, die Datenverarbeitung und das Datenziel. Bei reinen Transformationspipelines können Datenquelle und Datenziel auch identisch sein.

Als grundlegende Datenverarbeitungsschritte einer Datenpipeline lassen sich nennen:

  • Erfassen der Daten einer Datenquelle,
  • Anpassen, Transformieren, Kombinieren der Daten,
  • Übergabe der Daten an das Zielsystem oder Speicherung im Datenziel.

Bei der Erfassung der Daten lassen sich unterschiedliche Datenquellen berücksichtigen. Der Erfassungsprozess umfasst unter anderem die Extraktion der Rohdaten. Die erfassten Daten werden anschließend in das gewünschte Format gebracht, strukturiert, in die benötigte Form transformiert und gegebenenfalls dedupliziert, geprüft, sortiert, mit weiteren Daten kombiniert oder auf andere Art verarbeitet. Der letzte Schritt der Datenpipeline ist die Übergabe an das Zielsystem beziehungsweise die Integration der Daten im Datenziel zum Beispiel durch Speicherung.

Eine Unterkategorie der Datenpipeline ist die ETL-Pipeline. Bei dieser Pipeline folgen immer die Schritte Extract, Transform und Load aufeinander. Generell unterscheidet sich die Datenpipeline von der ETL-Pipeline darin, dass die Abfolge nicht auf Extract, Transform und Load beschränkt ist. Es sind auch Abfolgen wie ELT (Extract, Load, Transform) oder das Auslassen von Teilschritten wie der Transformation und andere Abfolgen möglich.

Arten von Datenpipelines

Bei den Datenpipelines wird zwischen den beiden Arten Batch-Pipeline (Stapelverarbeitungs-Pipeline) und Stream-Pipeline unterschieden.

Die Batch-Datenpipeline wendet aufeinanderfolgende Aktivitäten zum Beispiel zur Datentransformation auf eine große Menge Daten an. Erst wenn eine Aktivität für die komplette Menge der Daten abgeschlossen ist, folgt die nächste Aktivität. Dadurch entsteht ein größerer Zeitverzug beim Durchlauf der Daten durch die Datenpipeline. Batch-Datenpipelines kommen bei gelegentlich ausgeführten, großvolumigen Datenverarbeitungsvorgängen zum Einsatz.

Bei einer Stream-Datenpipeline hingegen erfolgt die Verarbeitung der Daten kontinuierlich. Einzelne Aktivitäten werden auf kleine „Datenhäppchen“ angewandt. Die Stream-Datenpipeline bietet kurze Latenzzeiten und ermöglicht kontinuierliche Datenverarbeitungsabläufe in nahezu Echtzeit.

Anwendungsbeispiele für Datenpipelines

Datenpipelines kommen in zahlreichen Anwendungen zum Einsatz. Typische Anwendungsbeispiele sind:

  • das Befüllen eines Data Warehouse oder Data Lake mit Daten,
  • Datenanalysen im Big-Data- und Business-Intelligence-Umfeld,
  • Echtzeitdatenanalysen,
  • Künstliche Intelligenz und Maschinelles Lernen,
  • Verarbeitung von Sensordaten,
  • Verarbeitung von Daten des Internets der Dinge (IoT),
  • Datenvisualisierungen,
  • Datenmigrationen,
  • Monitoring von IT-Systemen und IT-Umgebungen.

(ID:50238889)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung