Mobile-Menu

Beseitigung redundanter Daten Was ist Deduplizierung (Deduplication)?

Von Dipl.-Ing. (FH) Stefan Luber 2 min Lesedauer

Anbieter zum Thema

Die Deduplizierung identifiziert redundante Daten und entfernt Datenduplikate. Dadurch lässt sich Speicherplatz einsparen. Der Vorgang der Deduplizierung kann direkt beim Speichern von Daten oder im Nachgang bei bereits gespeicherten Daten erfolgen. Ein typischer Anwendungsbereich der Deduplizierung ist die Datensicherung.

Datendeduplizierung optimiert den Speicherplatz durch Entfernen redundanter Daten. Sie reduziert Kosten und beschleunigt Backups. Inline- und Post-Process-Methoden sowie Block- und Dateiebenenansätze bieten umfassende Vorteile für Effizienz und Bandbreitennutzung.(Bild:  Midjourney / KI-generiert)
Datendeduplizierung optimiert den Speicherplatz durch Entfernen redundanter Daten. Sie reduziert Kosten und beschleunigt Backups. Inline- und Post-Process-Methoden sowie Block- und Dateiebenenansätze bieten umfassende Vorteile für Effizienz und Bandbreitennutzung.
(Bild: Midjourney / KI-generiert)

Der englische Begriff für „Deduplizierung“ lautet Deduplication. Bei der Datendeduplizierung handelt es sich um ein Optimierungsverfahren der Nutzung nichtflüchtigen Speichers. Im Rahmen der Deduplizierung werden redundante Daten, die auf einem nichtflüchtigen Speicher abgelegt werden sollen oder dort bereits abgelegt sind, identifiziert und gefundene, überflüssige Datenduplikate entfernt. Der Speicherbedarf wird dadurch reduziert und Speicherplatz eingespart.

Zur Reduktion des Speicherbedarfs kommt die Datendeduplizierung häufig in Kombination mit weiteren Verfahren wie der Datenkomprimierung zum Einsatz. Typische Anwendungsbereiche sind Datensicherungen (Backups), Datenarchivierung, Dateiserver, Cloud-Speicher und virtuelle Computing-Infrastrukturen. Einige Dateisysteme wie ZFS oder Btrfs sind mit integrierten Funktionen zur Unterstützung der Datendeduplizierung ausgestattet. Die NTFS-Datendeduplizierung ist eine Funktion des Windows-Server-Betriebssystems.

Verfahren und Funktionsweise der Deduplizierung

Die Datendeduplizierung kann Hardware- oder Software-basiert erfolgen. Bei einer Hardware-basierten Deduplizierung sind Systeme oder Geräte wie Backup-Appliances oder Datenspeicher direkt mit entsprechenden Deduplizierungsfunktionen ausgestattet. Bei einer Software-basierten Deduplizierung steuert ein Programm die Identifizierung und Beseitigung von Datenduplikaten.

Grundsätzlich lässt sich die Deduplizierung direkt beim Speichern neuer Datenelemente inline oder im Nachgang bei bereits gespeicherten Daten anwenden. Die nachgelagerte Deduplizierung wird auch als Post-Process-Deduplizierung oder asynchrone Deduplizierung bezeichnet.

Die Inline-Deduplizierung untersucht eingehende Datenelemente und vergleicht sie mit bereits gespeicherten Daten. Sind Daten bereits vorhanden, findet kein Schreibprozess für die eingehenden Datenelemente statt, und es wird nur ein Verweis auf die Daten gespeichert. Bei einer nachgelagerten Deduplizierung werden sämtliche schon geschriebenen Daten nach Duplikaten untersucht. Gefundene Datenkopien werden anschließend entfernt und entsprechende Verweise auf die Originaldaten hinterlegt. Die nachträgliche Deduplizierung hat gegenüber dem Inline-Verfahren den Nachteil, dass zunächst unnötig Speicherplatz belegt wird und entsprechende Speicherkapazität vorgehalten werden muss. Die Freigabe der Speicherressourcen erfolgt erst im Nachgang.

Bei den Deduplizierungsmethoden ist eine Unterscheidung zwischen der Deduplizierung auf Blockebene und auf Dateiebene möglich. Die Deduplizierung auf Dateiebene untersucht Dateien als Ganzes hinsichtlich möglicher Duplikate. Doppelte Dateien werden entfernt und durch Dateiverweise ersetzt. Teilweise identische Inhalte innerhalb einer Datei können nicht berücksichtigt und entfernt werden.

Die Deduplizierung auf Blockebene betrachtet die gespeicherten Daten in Datensegmenten fester Größe und berechnet für jedes Segment eine Prüfsumme. Werden Datenblöcke mit gleichen Prüfsummen identifiziert, ist das ein Hinweis auf ein Datenduplikat. Um dies eindeutig festzustellen, müssen die Datensegmente mit identischen Prüfsummen allerdings einer weiteren Prüfung unterzogen werden. Erst wenn die Datenblöcke Byte für Byte verglichen wurden und tatsächlich identisch sind, können die Blockduplikate entfernt und durch Verweise auf den verbleibenden Datenblock ersetzt werden.

Vorteile einer Datendeduplizierung

Eine Datendeduplizierung bietet unter anderem diese Vorteile:

  • wird automatisch im Hintergrund ausgeführt und erfordert keine Anwenderinteraktion,
  • spart Speicherplatz,
  • reduziert die Storage-Kosten,
  • beschleunigt Datensicherungsvorgänge und reduziert die Wiederherstellungszeit von Backups,
  • verbessert die Effizienz beim Abrufen und Speichern von Daten,
  • reduziert den Bandbreitebedarf bei netzbasierten Datenspeicherungen.

(ID:50378455)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung