Interview „Die Archivierungskrise wird zu großen Datenverlusten führen“

Autor / Redakteur: Das Interview führte Hartmut Wiehr / Nico Litzel

Michael Peterson, Präsident der Strategic Research Corporation und führendes Mitglied des SNIA Data Management Forum, sieht eine Archivierungskrise heraufziehen, wenn sich Unternehmen nicht ernsthaft um die organisatorischen und technischen Herausforderungen einer langfristigen Datenspeicherung kümmern. Es drohe ein Datenverlust, der nicht nur Unternehmen tangieren wird, sondern zu einem Verlust des kollektiven und gesellschaftlichen Gedächtnisses führen kann.

Anbieter zum Thema

Bei langfristiger Datenspeicherung kann man zwischen technischen und organisatorischen Aspekten unterscheiden. Was macht den Kern der organisatorischen Seite von Datenspeicherung und Archivierung aus? Wie gehen Unternehmen und andere Institutionen damit für gewöhnlich um?

Peterson: Innerhalb von Organisationen, bei denen langfristige Aufbewahrung von Daten eine Rolle spielt, finden wir meistens zwei Abteilungen, die sich damit befassen: „Information Management“ oder RIM, das „Records and Information Management“, und Information Technology. Die IT-Abteilung ist in der Regel verantwortlich für die Infrastruktur, und Information Management ist verantwortlich für die Policies im Umgang mit den Daten. In deutschen Unternehmen entspricht das etwa der Aufgabenverteilung zwischen IT und Geschäftsführung. Das Paradoxon besteht nun darin, dass etwa 80 Prozent der IT-Abteilungen keine Ahnung von den Anforderungen an die Informationen haben – seien diese nun geschäftlicher, rechtlicher oder sonstiger Natur.

Was folgt daraus?

Peterson: Daraus ergibt sich ein ernsthaftes Problem: Es gibt Management-Abteilungen, die die Dauer der Aufbewahrung für bestimmte Informationen oder Dateien festlegen, basierend auf Compliance- oder gesetzlichen Regeln, auf Vorschriften für Wiedervorlage oder Firmengeschichte und so weiter. Das lässt sich für alle Daten einer Organisation oder eines Unternehmens festlegen – es handelt sich um Entscheidungen, die auf bestimmten Annahmen gründen. So werden Aufbewahrungsfristen für 30 Tage, sieben oder 50 Jahre oder für immer festgelegt.

Oder man gibt sie zum Löschen frei.

Peterson: Richtig, oder man löscht sie. Das ist eine weitere Option. Doch eine wichtige Frage stellt sich hier: Wann sollen die Daten gelöscht werden? Und wer hat die Berechtigung dazu? Nach welchen Regeln? Bei allen Organisationen gibt es hierfür eigene Richtlinien und Verantwortlichkeiten – oder sollte es zumindest geben. Und natürlich gibt es Hierarchien und Entscheidungsebenen.

Archivierung unterliegt also bestimmten Anforderungen, die sich oft nicht decken?

Peterson: Bei Archivierung geht es um mehr – um ein Gesamtkonzept. Archivierung kämpft, zumindest in den USA, damit, sich erst Respekt verschaffen zu müssen. Leider muss sich diese notwendige Unterabteilung von Datensicherung gegen den Verdacht zur Wehr setzen, nur museal zu sein. Doch mit den aktuellen Compliance- und Gesetzesanforderungen fällt dem Archivkonzept eine neue Bedeutung zu. Denn die längerfristig gespeicherten Daten werden wieder wertvoll – sie sind mit einem Risiko und möglichen Strafen behaftet und müssen jederzeit auf Verlangen reaktiviert werden können.

Innerhalb der Unternehmen sehen wir oft, dass es an Kommunikation mangelt: Auf Managementebene werden bestimmte Policies festgelegt, ohne dass diese richtig in der IT-Abteilung ankommen. Es fehlt an Informationen, es existieren konkurrierende Entscheidungsinstanzen, so wie es in vielen hierarchisch aufgebauten Institutionen der Fall ist.

Was sind Ihrer Ansicht nach die technischen Aspekte der Archivierung?

Peterson: Diese Liste ist im Allgemeinen sehr lang: Wir haben es zu tun mit Performance, Hochverfügbarkeit, Aufbewahrungsfristen, dem Löschen von Daten, Business Continuity oder Disaster Recovery, Datenintegrität und Authentifizierung. Die wesentlichen Begriffe hier sind Integrität und Authentifizierung. Integrität bedeutet, dass der Inhalt der Daten nicht im Laufe der Zeit verändert werden kann, und bei Authentifizierung geht es um die Zugriffskontrolle auf die Daten, sodass mit Sicherheit definiert werden kann, was authentische Datenbestände sind und was nicht.

Wir haben jetzt über viele Einzelpunkte gesprochen. Doch was ist eigentlich heute die prinzipielle Herausforderung bei Archivierung?

Peterson: Die prinzipielle Herausforderung besteht darin, dass diese Techniken nicht schwer zu beherrschen sind, eigentlich haben wir alles schon mit ihnen gelöst. Das Problem liegt tiefer. Auf dem Markt gibt es alles Mögliche, mit dem man die angesprochenen Probleme in Angriff nehmen kann, wobei sich die Lösungen nicht unbedingt nur in einem einzigen Produkt finden. Deshalb besteht eine Herausforderung darin, die Anbieter dazu zu bewegen, eine vollständige Lösung für die langfristige Archivierung anzubieten. Eine zweite Herausforderung besteht darin, physikalische und logische Datenmigration zusammenzubringen – jenseits der technischen und organisatorischen Maßnahmen, bei denen wir schon große Fortschritte erzielt haben.

Und warum sind diese beiden Bereiche noch nicht gelöst?

Peterson: Es handelt sich um so etwas wie den Heiligen Gral – bei den physikalischen Problemen sind schon über 90 Prozent gelöst, weil wir bereits über selbstheilende Systeme verfügen.

Können Sie Beispiele für selbstheilende Systeme nennen?

Peterson: Denken Sie nur an die Centera von EMC. Sie verfügt bereits über die meisten angesprochenen Features. Von Nexsan gibt es ebenfalls eine entsprechende Appliance, und auch SoleraTec aus San Diego bietet eine solche Lösung an. Dann gibt es noch Archivas, die inzwischen von Hitachi Data Systems übernommen wurden.

Was genau verstehen Sie unter „selbstheilend“?

Peterson: Nehmen Sie ein Disk-Array als Beispiel für eine selbstheilende Architektur: Hier gibt es eine Software, die im Hintergrund die Festplatten überwacht. Die Medien werden kontinuierlich getestet und sobald Fehler festgestellt werden, wird das entsprechende Medium aus dem System herausgenommen. Die Daten werden repliziert oder auf einem anderen Medium rekonstruiert. Das Array selbst läuft weiter ohne jede Downtime. Das ist eine Form von Selbstheilung.

Aber es gibt keine Garantie für eine solche Selbstheilung.

Peterson: Das ist auch gar nicht nötig. Man testet mit Hashcodes und Ähnlichem die Integrität der gespeicherten Daten, ob sie geändert wurden oder nicht – man greift auf Hardware- und Software-Seite ein, bevor etwas passiert.

Festplatten oder andere Medien müssen aber dennoch nach einer gewissen Lebensdauer ausgetauscht und die Daten dann bewegt werden.

Peterson: Nein, das ist so nicht richtig. Es gibt zwar ein Prinzip, wonach man nach drei Jahren Medien austauschen sollte, aber es ist nur ein Prinzip. Es wurde aufgestellt, da man bislang nicht über etwas Besseres verfügte. Das Prinzip beruht lediglich auf einem statistischen Durchschnitt. Inzwischen haben wir verschiedene Verfahren, mit denen Fehler auf Dateiebene rechtzeitig erkannt und dann die Medien ausgetauscht werden können. Darüber hinaus wird an Techniken gearbeitet, mit denen man Festplatten im Leerlauf herunterfährt oder den Schreib-/Lesekopf in eine Ruheposition überführt – beides wird die Lebensdauer verlängern. Bei 2,5-Zoll-Festplatten kommt das bereits zum Einsatz.

Und wie beurteilen Sie Tapes? Wie lange müssen die halten?

Peterson: Auch hier geht es nicht um die physikalische Lebensdauer. In der Tape-Technik haben wir die gleichen Möglichkeiten, Bänder periodisch zu scannen und Fehlerraten zu messen und für einen Medientausch zu sorgen. Storagetek/Sun und IBM haben zum Beispiel so etwas im Angebot.

IBM spricht im Highend von einer Tape-Lebensdauer von 60 Jahren.

Peterson: Darum geht es nicht. Es geht nicht um die Lebensdauer von Medien.

Wieso nicht?

Peterson: Datenspeicherung hat nichts mit der Lebensdauer von Medien zu tun. Das ist meine Position. Denn das eigentliche Problem besteht in der Fähigkeit, Informationen zu lesen und zu interpretieren. Die Speichergeräte geben nach einigen Jahren ihren Geist auf, ebenso wie die Medien und die eingesetzten Softwaresysteme. Die ganze schöne Infrastruktur geht dahin. Daraus folgt, dass wir alles daran setzen müssen, die Daten immer weiter zu migrieren – an ihnen liegt uns etwas und nicht an den diversen Verfahren, mit denen sie im Lauf der Zeit gespeichert werden.

Ihre These lautet also: Weil wir alle diese Daten nicht langfristig auf bestimmten Medien halten können, kommt es darauf nicht an. Das ist etwas widersprüchlich.

Peterson: Gut, noch einmal mit anderen Worten: Da wir nicht das ganze Speicher-Equipment retten können, kommt es meiner Meinung nach nicht auf dessen lange Lebensdauer an. Hinzu kommt, dass es nicht gerade einfach ist, alle gespeicherten Daten langfristig zu migrieren – dennoch muss es in periodischen Abständen immer wieder durchgeführt werden. Mein Anliegen ist es, von der vordergründigen Frage nach der Lebensdauer der Hardware, der Software und der Medien wegzukommen und stattdessen automatisierte Prozesse der Datenmigration anzustoßen, die im Backend ablaufen. Ein Beispiel: Immer dann, wenn ein neues Speicher-Array oder ein Bandlaufwerk angeschlossen werden, sollte in der bestehenden Infrastruktur ein Policy-gesteuerter Prozess automatisch mit der Datenmigration beginnen. Ohne menschlichen Einfluss. Und einschließlich der Transformation der Datenformate, falls nötig.

Und mit solchen Verfahren lassen wir die Medien- und Geräteproblematik hinter uns. Das ist Ihre These.

Peterson: Ja. Was nützt es uns, wenn wir irgendwann Medien haben, die 1.000 Jahre arbeiten, aber wir nicht mehr die notwendigen Abspielgeräte für diese zur Verfügung stehen? Wir müssen uns von diesem Denken befreien. Es handelt sich nicht um ein Medien-, sondern um ein Systemproblem. Und mit den neuen Speichergeräten wie Centera und anderen befinden wir uns am Anfang eines notwendigen Transformationsprozesses, mit dem wir vielleicht die uns bevorstehende Archivierungskrise lösen können.

Was ist der Kern dieser Archivierungskrise, die Sie in Vorträgen und Aufsätzen thematisiert haben?

Peterson: Wenn wir nicht stärker auf die geschilderten Probleme achten und sie lösen, werden wir schon sehr bald Informationen verlieren. Die typische Situation, in der man sich heute mit der Problematik beschäftigt, ist eine aktuelle Krise – wenn gerade Medien oder Geräte ausgefallen sind und Datenverlust bereits eingetreten ist. Und das ist dann meistens zu spät. Und weil das so ist, muss man rechtzeitig seine Stimme laut erheben und Alarm schlagen. Es wird alle betreffen, Unternehmen, staatliche Stellen und Privatpersonen. Aber naturgemäß werden die Datenverluste dort am größten sein, wo sich die meisten digitalisierten Informationen befinden.

Wenn keine grundlegende Änderung im Umgang mit digitalisierten Daten stattfindet, droht der Verlust unseres kollektiven und gesellschaftlichen Gedächtnisses – ein Problem, das wir bei Papier und Film nicht kannten.

Artikelfiles und Artikellinks

(ID:2010428)