Mobile-Menu

Bereinigung, Normalisierung und Transformation von Rohdaten Was ist Data-Preprocessing (Datenvorverarbeitung, Data-Preparation)?

Von Dipl.-Ing. (FH) Stefan Luber 2 min Lesedauer

Anbieter zum Thema

Data-Preprocessing ist ein Datenvorverarbeitungsvorgang, der Rohdaten so aufbereitet, dass sie für weitere Datenverarbeitungsvorgänge wie Datenanalysen oder das Training von KI-Modellen verwendet werden können. Im Rahmen der Datenvorverarbeitung werden die Rohdaten bereinigt, transformiert und in ein für maschinelle Datenverarbeitungsvorgänge geeignetes Format gebracht.

Beim Data-Preprocessing werden Rohdaten für anschließende maschinelle Datenverarbeitungsvorgänge aufbereitet.(Bild:  Midjourney / KI-generiert)
Beim Data-Preprocessing werden Rohdaten für anschließende maschinelle Datenverarbeitungsvorgänge aufbereitet.
(Bild: Midjourney / KI-generiert)

Der deutsche Begriff für Data-Preprocessing lautet „Datenvorverarbeitung“. Manchmal wird synonym der Begriff Data-Preparation verwendet.

Das Data-Preprocessing bereitet Rohdaten so auf, dass sie sich für daran anschließende maschinelle Datenverarbeitungsvorgänge verwenden lassen. Die Datenvorverarbeitung ist ein wichtiger Vorbereitungsschritt für Datenanalysen oder maschinelles Lernen und das Training von KI-Modellen. Im Rahmen des Data-Preprocessing werden die Rohdaten bereinigt, normalisiert und transformiert, damit sie konsistent sind und das für die anschließenden Datenverarbeitungsvorgänge richtige Format und die benötigte Qualität für genaue Analysen und korrekte KI-basierte Vorhersagen aufweisen. Probleme in den Rohdaten wie fehlende Werte, Inkonsistenzen oder Ausreißer werden durch die Datenvorverarbeitung beseitigt.

Das Data-Preprocessing findet in der Regel automatisiert mithilfe spezieller Datenaufbereitungstools statt. Gängige Programmiersprachen für Datenanalysen und maschinelle Lernvorgänge wie Python oder R sind mit entsprechenden Funktionen zur Datenvorverarbeitung und zum Transformieren und Bereinigen von Daten ausgestattet.

Warum ist Data-Preprocessing notwendig?

Die Genauigkeit und Zuverlässigkeit von Datenanalysen oder von Ergebnissen und Vorhersagen von KI-Modellen hängen entscheidend von der Qualität der verwendeten Daten ab. Für Datenanalysen und maschinelle Lernvorgänge werden große Mengen an Daten verwendet, die häufig aus vielen verschiedenen Quellen stammen. Die Rohdaten aus den verschiedenen Quellen und Systemen haben unterschiedliche Formate, weisen verschiedene Strukturen und Darstellungen der Informationen auf oder sind mit Fehlern wie Ausreißern, Verzerrungen und fehlenden oder doppelten Werten behaftet.

Algorithmen für Datenanalysen oder für maschinelles Lernen arbeiten aber nur zuverlässig, wenn ihnen qualitativ hochwertige Daten im richtigen Format zur Verfügung gestellt werden. Nur dann liefern sie genaue, zuverlässige und belastbare Ergebnisse und korrekte Vorhersagen. Das Data-Preprocessing der für Analysen und KI-Algorithmen verwendeten Rohdaten ist daher unverzichtbar.

Wie funktioniert Datenvorverarbeitung?

Data-Preprocessing umfasst verschiedene Schritte und Verfahren zur Aufbereitung der Rohdaten wie Datenbereinigung, Datenintegration, Datenreduktion und Datentransformation.

Im Rahmen der Datenbereinigung werden Fehler wie fehlende oder doppelte Werte, fehlerhafte Eingaben (Tippfehler), Unstimmigkeiten oder Ausreißer identifiziert und entfernt oder korrigiert.

Die Datenintegration kombiniert Daten aus verschiedenen Quellen, um daraus einen einheitlichen Datensatz zu erstellen. Daten werden beispielsweise aus verschiedenen Tabellen in eine gemeinsame Tabelle überführt oder Datensätze auf der Grundlage gemeinsamer Attribute zusammengeführt und angepasst.

Datenreduktion ist ein Datenvorverarbeitungsschritt, bei dem die Größe von Datensätzen unter Beibehaltung ihrer inhaltlichen Aussagekraft und Integrität verkleinert wird. Typische Techniken der Datenreduktion sind die Dimensionsreduktion, die Beseitigung von Redundanzen oder die Auswahl von Teilmengen und Stichprobenziehungen.

Der letzte Schritt der Datenvorverarbeitung ist die Datentransformation. Sie wandelt die Rohdaten in das Format um, das für die Analysen oder KI-Algorithmen benötigt wird. Die Daten werden zum Beispiel skaliert, normalisiert, strukturiert und kodiert.

(ID:50632609)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung