Mobile-Menu

Datenbereinigung Was ist Data Scrubbing (Data Cleansing, Data Cleaning)?

Von Dipl.-Ing. (FH) Stefan Luber 2 min Lesedauer

Anbieter zum Thema

Data Scrubbing ist ein Vorgang oder Verfahren zur Bereinigung von Daten. Falsche, unvollständige oder doppelte Daten werden identifiziert und entfernt oder korrigiert. Es handelt sich um einen wichtigen Vorgang im Rahmen des Datenmanagements, der die Qualität und Integrität der Daten sicherstellt. Data Scrubbing kommt in verschiedenen Bereichen, beispielsweise bei Datenbanken, Data Warehouses oder Dateisystemen und Datenspeichern, zum Einsatz. Die Bereinigung erfolgt manuell oder automatisiert.

Die wichtigsten IT-Fachbegriffe verständlich erklärt.(Bild:  © aga7ta - Fotolia)
Die wichtigsten IT-Fachbegriffe verständlich erklärt.
(Bild: © aga7ta - Fotolia)

Alternative Begriffe für Data Scrubbing sind „Data Cleansing“ oder „Data Cleaning“. Die deutsche Übersetzung lautet „Datenbereinigung“.

Es handelt sich um einen wichtigen Vorgang des Datenmanagements, der für Informationssysteme wie Datenbanken, Data Warehouses, Dateisysteme, Speichergeräte, Arbeitsspeicher und andere angewandt wird. Das Scrubbing findet falsche, unvollständige oder doppelte Daten und korrigiert oder entfernt sie. Ziel der Datenbereinigung ist es, die Qualität der Daten zu verbessern und ihre Integrität sicherzustellen. Je nach Informationssystem finden verschiedene Verfahren der Datenbereinigung Anwendung.

Grundsätzlich kann das Data Scrubbing manuell oder automatisiert mit Tools und Algorithmen stattfinden. Die Gründe für die Notwendigkeit der Datenbereinigung sind vielfältig. Datenfehler oder Duplikate können während der Datenerfassung oder Datenhaltung entstehen oder andere Ursachen haben, wie Bit Rot auf bestimmten Speichermedien, Gerätedefekte oder menschliche Fehler im Umgang mit den Daten.

Welche Probleme lassen sich durch Data Scrubbing erkennen und beheben?

Eine Datenbereinigung kann grundsätzlich eine Vielzahl an Problemen erkennen und beheben. Dazu zählen zum Beispiel:

  • das Erkennen von Duplikaten und Beseitigen doppelt vorhandener Daten,
  • das Erkennen und Reparieren von Datenfehlern,
  • das Identifizieren und Löschen ungültiger oder irrelevanter Daten,
  • das Erkennen und Vervollständigen lückenhafter Daten,
  • das Erkennen und Korrigieren falsch formatierter Daten.

Data Scrubbing bei Dateisystemen und Datenspeichern

Scrubbing bei Dateisystemen und Datenspeichern ist dafür zuständig, gespeicherte Daten auf Befehl oder im Hintergrund auf Beschädigungen zu prüfen und sie automatisch zu korrigieren, um der „Datenfäule“ (Bit Rot) vorzubeugen und Datenkorruption zu verhindern. Es gibt einige Dateisysteme wie ZFS oder Btrfs, die entsprechende Mechanismen zur Datenbereinigung und Scrubbing-Funktionen implementiert haben. Auch zahlreiche NAS-Systeme bieten entsprechende Scrubbing-Funktionalitäten.

Btrfs ist ein Copy-on-Write-Dateisystem (CoW) für Linux, das beim Lesen von Blöcken automatisch die Prüfsummen auswertet und so Datenfehler feststellt. Das Scrubbing kann auch für ein komplettes Btrfs-Dateisystem angestoßen werden. Defekte Daten lassen sich anschließend beispielsweise mithilfe der RAID-Technik und redundant vorhandener Daten automatisch rekonstruieren. Auch das von Sun Microsystems für Solaris entwickelte Dateisystem ZFS besitzt die Fähigkeit für integriertes Scrubbing. Defekte Daten werden mithilfe von Prüfsummen identifiziert und mit redundant gespeicherten Daten und Metadaten automatisch repariert.

(ID:49246376)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung