Mobile-Menu

Datenaufnahme und Datendurchsatz Was sind Data-Ingestion und Ingest-Rate?

Von Dipl.-Ing. (FH) Stefan Luber 2 min Lesedauer

Anbieter zum Thema

Data-Ingestion ist ein Prozess aus dem Bereich der Datenverwaltung. Er sammelt Daten aus verschiedenen Quellen und überträgt sie in ein Zielsystem, zum Beispiel eine Datenbank oder ein Data Warehouse, um sie dort für Analysen oder weitere Datenverarbeitungsvorgänge zu verwenden. Die Ingest-Rate misst, mit welchem Durchsatz die Daten in das Zielsystem fließen.

Bei Data Ingestion werden Daten aus verschiedenen Quellen gesammelt und in ein zentrales Zielsystem übertragen.(Bild:  Midjourney / KI-generiert)
Bei Data Ingestion werden Daten aus verschiedenen Quellen gesammelt und in ein zentrales Zielsystem übertragen.
(Bild: Midjourney / KI-generiert)

Der deutsche Begriff für data ingestion lautet „Datenaufnahme“. Bei Data-Ingestion handelt es sich um einen wichtigen Prozess aus dem Bereich der Datenverwaltung. Daten werden aus verschiedenen Quellen gesammelt und in ein zentrales Zielsystem übertragen. Als zentrales System oder Repository fungiert zum Beispiel eine Datenbank, ein Data Warehouse, ein Data Lake oder eine Cloud-Plattform. Dort lassen sich die gesammelten und übertragenen Daten für weitere Datenverarbeitungsvorgänge, Analysen oder für datenbasierte Entscheidungsprozesse nutzen.

Die Ingest-Rate ist eine Messgröße, die Auskunft über den Durchsatz gibt, mit dem die Daten aus den verschiedenen Quellen in das Zielsystem fließen. Typische Einheiten für die Ingest-Rate sind Datensätze/Sekunde oder Bytes/Sekunde. Die Ingest-Rate wird von verschiedenen Faktoren wie der Lesegeschwindigkeit der Quellen, der Netzwerkkapazität, der Speichergeschwindigkeit des Zielsystems, der Schreibpuffergröße und anderen beeinflusst. Hohe Ingest-Raten sind notwendig, wenn große eingehende Datenmengen mit minimalem Zeitverzug und ohne Datenverlust weiterverarbeitet oder analysiert werden sollen.

Abgrenzung der Begriffe Data-Ingestion und ETL (Extract, Transform, Load)

Die beiden Begriffe Data-Ingestion und ETL (Extract, Transform, Load) werden häufig gleichgesetzt. Sie unterscheiden sich aber hinsichtlich ihres jeweiligen Schwerpunkts voneinander. Bei Data-Ingestion liegt der Schwerpunkt auf dem Erfassen und Sammeln der Daten der verschiedenen Quellen und dem Übertragen in das Zielsystem. Die eingesammelten Daten werden ohne aufwendige Transformationsvorgänge in das Zielsystem geladen. Ziel ist es, die Rohdaten mit der für die nachfolgenden Analyse- und Verarbeitungsvorgänge erforderlichen Ingest-Rate einzusammeln.

ETL legt den Schwerpunkt auf das Extrahieren der Rohdaten aus den verschiedenen Quellen und das anschließende Transformieren in ein Format, das den Anforderungen des Zielsystems entspricht. Die transformierten Daten werden dann in dem umgewandelten Format in das Zielsystem geladen. Der ETL-Prozess umfasst dementsprechend komplexe Datenbereinigungs-, Datenzuordnungs-, Datenvalidierungs-, Datentransformations- und Datenintegrationsvorgänge.

Die beiden Data-Ingestion-Hauptarten

Data-Ingestion lässt sich in die zwei Hauptarten Batch- und Streaming-Ingestion unterteilen. Sie sind jeweils für unterschiedliche Anwendungsfälle geeignet.

Batch-Data-Ingestion erfolgt in festgelegten Zeitintervallen. Die Daten werden zum Beispiel stündlich oder täglich aus den verschiedenen Datenquellen eingesammelt und dann gesammelt in das Zielsystem übertragen. Diese Datenaufnahme nach dem Stapelverarbeitungsprinzip eignet sich zum Beispiel für große Datenmengen, die nicht sofort, sondern mit einem gewissen zeitlichen Verzug weiterverarbeitet werden können.

Beim Streaming-Data-Ingestion werden die Daten kontinuierlich aus den Quellen eingesammelt und sofort in das Zielsystem übertragen. Diese Art von Data-Ingestion eignet sich für echtzeitfähige Anwendungen, bei denen die Analyse- oder Verarbeitungsergebnisse mit möglichst minimalem zeitlichen Verzug vorliegen sollen oder datenbasiert zeitkritische Entscheidungen getroffen werden sollen.

Neben diesen beiden Typen gibt es noch weitere spezialisierte Formen der Datenaufnahme wie Mischformen aus Batch- und Streaming-Ingestion.

Typische Einsatzbereiche von Data-Ingestion

  • Datenanalysen und Business-Intelligence,
  • Steuerung von Logistik- oder Produktionsprozessen durch die Aufnahme von IoT- und Produktionsdaten vernetzter Maschinen,
  • Zusammenführung von Marketingdaten, zum Beispiel für personalisierte Werbung,
  • Aggregation von Finanz- und Transaktionsdaten, zum Beispiel für die automatisierte Betrugserkennung,
  • Erfassung und Analyse der Daten von verschiedenen medizinischen Geräten,
  • Realisierung von Live-Analyse-Dashboards mit Echtzeitdarstellung wichtiger Leistungsindikatoren (KPIs).

(ID:50712068)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung