Schleichende Datenkorruption – eine unangenehme Wahrheit

Kommentar von Claudia Hildebrandt, Sales Engineer bei Nexenta Schleichende Datenkorruption – eine unangenehme Wahrheit

17.04.2012Autor / Redakteur: Claudia Hildebrandt / Nico Litzel

Schleichende Datenkorruption kann zu einem Problem werden, denn viele proprietäre Dateisysteme bietet keinen vollkommenen Schutz. Das auf dem ZFS-Dateisystem aufbauende NexentaStor gewährleistet dagegen über End-to-End-Prüfsummen, transaktionelle Schreiboperationen und mit dem Copy-on-Write-Verfahren die Datenintegrität.

Anbieter zum Thema

DataCore Software GmbH

Touchdown PR Ltd.

Gefährliches Spiel - Prüfsummen in traditionellen Dateisystemen liegen im entsprechenden Datenblock.

„Bit rot“ heißt es manchmal, „Data Corruption“ oder aufgrund des heimlichen Ablaufs auch „Silent Data Corruption“. Auf Deutsch passt wohl am besten „schleichende Datenkorruption“. Die stille Verschlechterung von Bits ist ein wenig beachtetes aber durchaus ernst zu nehmendes Phänomen, das Dateninhalte von Dokumenten befällt und über eine gewisse Zeit dazu führt, dass Informationen unwiederbringlich verloren gehen können.

Im Prinzip werden beim Schreiben der Daten Bits unbeabsichtigt geändert und können beim Lesen der Daten natürlich nicht mehr richtig wiedergegeben werden. Man sollte meinen, ein modernes und intelligentes System würde das fehlerhafte Schreiben erkennen, den Fehler melden und beheben. Die Wahrheit jedoch ist, dass die meisten modernen Dateisysteme diese geänderten Bits nicht erkennen können und somit munter das Schreiben von fehlerhaften Daten unterstützen.

Wie groß ist das Problem der stillen Datenkorruption?

Man stelle sich einmal vor, dass persönliche Krankendaten in einer Klinik nicht richtig gesichert sind und die Daten sich beim Schreiben oder Sichern verändert haben. Anstatt von 100 Milligramm erhält der Patient nun zehn Milligramm eines Medikaments. Auch Kontodaten einer Bank könnten sich durch fehlerhafte Bits radikal verändern. Sehr wahrscheinlich würden wohl eher ein paar Nullen fehlen, anstatt hinzukommen und den Inhaber des Kontos in Kürze vom Millionär zum Bettler machen. Ohne sicheres Backup und der Fähigkeit, Silent Data Corruption beim fehlerhaften Schreiben zu erkennen, werden Fehler außerdem immer wohl erst erkannt, wenn die Daten bereits verloren sind.

Eine kürzlich veröffentlichte Studie, die über einen Zeitraum von 41 Monaten erstellt wurde, analysierte korrupte Daten in Speichersystemen mit mehr als 1,53 Millionen Festplatten. Die Studie spürte drei Arten von Datenkorruption auf: Prüfsummen-Versatz, Identitäts-Diskrepanzen und Paritäts-Inkonsistenzen. Die Studie fand mehr als 400.000 Zwischenfälle von stiller Datenkorruption, wobei Prüfsummen-Versatz der häufigste Fehler war. Dabei wurden die meisten der Fehler erst nach der RAID-Restauration erkannt.

Laut CERN enthält eine von 1.500 Dateien korrupte Daten

Eine weitaus bekanntere Studie des CERN zeigte bereits im Jahre 2007, dass korrupte Daten statistisch in einer von 1.500 Dateien vorkommen. Auch eine Studie, die 3.684 Hosts mit 12.204 LUNs beobachtete, kam zu dem Ergebnis, dass 11,5 Prozent aller LUNs zum Teil zerfallene Daten enthielten.

Dabei ist das heimliche Sterben von Daten kein Mysterium oder überkommt ein System aus heiterem Himmel: Bootstorms, doppelte Software, Softwarefragmente in der Registry, Überschreiben von Treibern, anstatt diese zu löschen, oder auch fehlerhafte Motherboards, Controllerkarten und Firmware können zur Datenkorruption führen.

Zwar nutzen viele traditionelle Dateisysteme Prüfsummen mit einer Größe von acht Bit, speichern diese jedoch im entsprechenden Datenblock. Damit können diese zwar Bit Rot erkennen, nicht jedoch Phantom-Schreibvorgänge, falsch adressierte Schreibvorgänge, DMA-Paritätsfehler (Direct Memory Access), Treiber-Bugs oder ein zufälliges Überschreiben.

Ein hierarchischer Aufbau von Dateisystemen mit unabhängigen Ebenen ist Ursache für Datenkorruption. Ein Problem, das viele herkömmliche Dateisysteme nicht gelöst haben, besteht darin, dass die Storage-Architekturen zur Verwaltung des Speichers aus drei voneinander unabhängigen Komponenten bestehen:

1. Das Storage-Management

RAID Controller erstellen und kontrollieren die Festplattenarchitektur.

1. Das Volume-Management

Mit spezieller zusätzlicher Software werden die logischen Festplattenverbünde (RAID-Gruppen) in logische Volumen eingeteilt, die maximal eine Größe haben dürfen, die das darin installierte Dateisystem verwalten kann. So erlaubt beispielsweise FAT32 nur eine Größe bis acht Terabyte und eine maximale Dateigröße von vier Gigabyte.

1. Das Dateisystem

Dieses wird pro Volume installiert und ist somit fest an dieses geknüpft. Die Vergrößerung eines Volumes hat zur Folge, dass auch das Dateisystem vergrößert werden muss, was bei mehrmaliger Vergrößerung zu Performanceproblemen führt.

(ID:32992940)