Mobile-Menu

Grundlagen der Digitalisierung und Archivierung, Teil 3 Langzeitarchivierung

Von Michael Matzer 7 min Lesedauer

Anbieter zum Thema

Die langfristige Archivierung von Daten ist in zahlreichen Sparten und Branchen notwendig, sei es durch Kundenwünsche, sei es durch gesetzliche Vorgaben. Im Handelsrecht, in der Justiz, im Versicherungswesen sind vielfach bestimmte Aufbewahrungsfristen vorgegeben, die durch die Archivierung realisiert werden müssen. Dafür lassen sich mehrere Technologien als Lösung heranziehen.

Für die digitale Langzeitarchivierung gibt es gesetzliche Vorgaben und unterschiedliche technische Ansätze.(Bild:  ©Devrimb, Getty Images Signature via Canva.com)
Für die digitale Langzeitarchivierung gibt es gesetzliche Vorgaben und unterschiedliche technische Ansätze.
(Bild: ©Devrimb, Getty Images Signature via Canva.com)

Im Handelsgesetzbuch (HGB) und in der Abgabenordnung (AO) ist geregelt, wie lange kaufmännische Dokumente aufbewahrt werden müssen. Diese Vorschriften betreffen nur Kaufleute. Empfangene Handelsbriefe, Wiedergaben (Kopien, Durchschriften) abgesandter Handelsbriefe, Geschäftspapiere und sonstige Unterlagen mit kaufmännischer und steuerlicher Bedeutung sind sechs Jahre lang aufzubewahren.

Bildergalerie
Bildergalerie mit 6 Bildern

Zehn Jahre sind Handelsbücher, Inventare, Eröffnungsbilanzen, Jahresabschlüsse, Einzelabschlüsse, Lageberichte, Konzernabschlüsse, Konzernlageberichte sowie die zu ihrem Verständnis erforderlichen Arbeitsanweisungen und sonstigen Organisationsunterlagen aufzubewahren. Das gilt auch für Buchungsbelege der zu führenden Bücher. Eingangs- und Ausgangsrechnungen sind ebenfalls zehn Jahre lang aufzubewahren. Rechtsanwälte und Patentanwälte haben Handakten abgeschlossener Aufträge sechs Jahre aufzubewahren.

„Dauerwert“ ist ein Begriff aus der öffentlichen Verwaltung, der die dauerhafte, also unbefristete Aufbewahrung von Dokumenten umschreibt. Entsprechende Akten werden dort meist mit einem „D“ gekennzeichnet. Hierzu gehören insbesondere Unterlagen von geschichtlicher Bedeutung, Akten über Verfahren vor dem Bundesverfassungsgericht mit der betroffenen Behörde als Partei, Gesetzesurschriften, Grundstücksunterlagen, Personenstandsbücher, Konstruktionspläne für Bauwerke und vieles mehr.

In der Wirtschaft gibt es zwar aus handels- und steuerrechtlicher Sicht keine längeren Aufbewahrungsfristen über zehn Jahre hinaus, doch ist es allgemein üblich, Gesellschafterverträge, Grundstücksunterlagen, Baupläne, Patente, Versicherungsscheine, Gerichtsurteile oder Personalakten ebenfalls dauerhaft aufzubewahren. Patientenakten sollten aus versicherungstechnischen Gründen zehn Jahre aufbewahrt werden. In einzelnen Bereichen gilt eine längere gesetzliche Aufbewahrungsfrist, so etwa nach der Strahlenschutz- oder der Röntgenverordnung sowie für Aufzeichnungen nach dem Transfusionsgesetz – hier gilt eine Frist von bis zu 30 Jahren.

Medien- und Unterhaltungsinhalte wie Video- und Nachrichtenmaterial erfordern eine dauerhafte Speicherung und können im Laufe der Zeit auf viele Petabytes anwachsen. Viele dieser Daten müssen sofort verfügbar sein, etwa für Breaking-News, Video-Rendering oder Inhaltsentwicklung. Krankenhaussysteme sowie Genomforscher und Bildverwerter müssen zur Einhaltung der gesetzlichen Anforderungen jahrzehntelang Petabytes an Patientendaten (LIS, PACS, EHR usw.) aufbewahren.

Forschungs-Organisationen erzeugen, analysieren und archivieren enorme Mengen an Daten, wie etwa bei der Genomik oder beim Trainieren von Machine-Learning-Modellen. Büchereien und Behörden müssen immer größere Anstrengungen zur Erhaltung digitaler Daten unternehmen. Viele Unternehmen, beispielsweise aus den Bereichen Finanz- oder Gesundheitsdienstleistung, müssen aus regulatorischen und Compliance-Gründen große Datenarchive über lange Zeiten aufbewahren.

Technische Herausforderungen der digitalen Langzeitarchivierung

Die technische Umsetzung lässt sich auf mehrfache Weise flexibel realisieren, etwa mit Bandlaufwerken. Wer in der Cloud speichert, sollte auf die jeweilige Archivierungsklasse achten. Nicht jede Klasse lässt die Wiederherstellung oder den Abruf von Archivinhalten binnen Millisekunden zu. Die folgenden Angaben sind lediglich als Beispiele zu verstehen.

Langzeitarchivierung in der Cloud

Die Amazon-S3-Glacier-Speicherklassen, um nur ein Provider-Beispiel zu nennen, bieten eine ausgereifte Integration in AWS CloudTrail zur Protokollierung, Überwachung und Aufbewahrung von Speicher-API-Aufrufaktivitäten zur Prüfung und unterstützen drei verschiedene Verschlüsselungsformen. Diese Speicherklassen unterstützen auch Sicherheitsstandards und Compliance-Zertifizierungen wie SEC Rule 17a-4 (s. o.), PCI-DSS, HIPAA/HITECH, FedRAMP, EU GDPR (DSGVO) und FISMA.

Amazon S3 Glacier Deep Archive (Langzeit)

Kunden können beispielsweise bei Amazon S3 Glacier Deep Archive aus drei Archivspeicherklassen für die Langzeitspeicherung wählen, die für unterschiedliche Zugriffsmuster und Speicherdauer optimiert wurden.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Für Archivdaten, auf die sofortiger Zugriff erforderlich ist, wie etwa medizinische Bilder, Nachrichtenmedien-Komponenten oder Genomik-Daten, ist die Speicherklasse „S3 Glacier Instant Retrieval“ die erste Wahl, welche die kostengünstigste Speicherung mit Abrufen in Millisekunden bietet.

Für Archivdaten, auf die kein sofortiger Zugriff erforderlich ist, die aber die Flexibilität benötigen, große Datenmengen kostenlos abzurufen, wie etwa Backup- oder Notfallwiederherstellungs-Anwendungsfälle, wählen Kunden am besten „S3-Glacier-Flexible-Retrieval“ (ehemals „S3 Glacier“). Es gibt drei Abrufoptionen: beschleunigte Abrufe, die üblicherweise in 1 bis 5 Minuten abschließen, Standard-Abrufe, die üblicherweise in 3 bis 5 Stunden bereit sind, und Free-Bulk-Abrufe, die große Mengen an Daten typischerweise in 5 bis 12 Stunden abrufen.

Um bei Langzeitarchivspeichern, wie beispielsweise Compliance-Archiven und der Aufbewahrung digitaler Medien, noch mehr sparen zu können, wählen Kunden am besten „S3 Glacier Deep Archive“. Diese Speicherklasse stellt zwei Abrufoptionen bereit, die von 12 bis 48 Stunden reichen. S3-Glacier-Daten werden redundant in mehrfachen Availability-Zones gespeichert, die innerhalb einer AWS-Region physisch voneinander getrennt sind.

Sämtliche S3-Glacier-Speicherklassen sind in allen AWS-Regionen verfügbar, nutzen die sehr verbreitete Standard-S3-API und unterstützen alle S3-Funktionen – wie S3 Storage Lens, zum Anzeigen von Speichernutzung und Aktivitäts-Metriken, Server Side Encryption für Objektdaten, S3 Object Lock (vgl. Teil 4), um versehentliche Löschung zu verhindern, und AWS PrivateLink für den Zugriff auf S3 über einen privaten Endpunkt in einer Virtual Private Cloud (VPC).

Kunden können auch Amazon S3 Lifecycle verwenden, um Daten aus irgendeiner der S3-Speicherklassen zu einer kostengünstigeren Klasse zu verschieben, wenn auf die Daten seltener zugegriffen wird. Dies trägt zu einer Kostenoptimierung bei, bedeutet aber auch, dass die gewünschten Daten nicht sofort abgerufen werden können. Der Abruf kann durchaus etwas länger dauern.

Eine häufige Verwendung von S3-Lebenszyklusrichtlinien besteht darin, Objekte nach einem bestimmten Zeitraum automatisch zu löschen. Das ist beispielsweise Vorschrift, wenn ein Kunde auf sein „Recht des Vergessenwerdens“ pocht. Unternehmen können etwa eine Richtlinie zum Löschen temporärer Dateien oder Protokolle einrichten, die älter als 90 Tage sind. So wird sichergestellt, dass unnötige Daten ihren Speicherplatz nicht auf unbestimmte Zeit überlasten. Beispiele dafür, wie sich der S3-Lebenszyklus konfigurieren lässt, finden sich auf Amazon-Webseiten.

AWS Elastic File Storage (EFS)

Mit Amazon EFS Intelligent-Tiering gibt es eine neue Funktion für das EFS-Lebenszyklusmanagement außerhalb von S3. Diese vier Speicherklassen optimieren automatisch die Kosten für gemeinsam genutzten Dateispeicher, wenn sich die Datenzugriffsmuster ändern, und zwar ohne betrieblichen Mehraufwand. Mit EFS Intelligent-Tiering überwacht das Lebenszyklusmanagement die Zugriffsmuster des jeweiligen Dateisystems und verschiebt Dateien, auf die während der Dauer der Lebenszyklusrichtlinie nicht zugegriffen wurde, in eine kostengünstigere EFS-Speicherklasse.

Andere Cloud-Anbieter stelle ähnliche Dienste bereit.

Bildergalerie
Bildergalerie mit 6 Bildern

Bandspeicher

Lokale und externe Magnetbandbibliotheken ermöglichen eine sichere, kosteneffektive und energieeffiziente Datenspeicherung. Ihr großer Vorteil: Die Tapes können sehr große Datenmengen auf kleinstem Raum, einer Kassette, speichern: Im Frühjahr 2021 brachte IBM eine Ultrium-9-Kassette mit der Speicherkapazität von 45 TB (komprimiert) auf den Markt. Die Übertragungsrate kann 12 Gbps (SAS) erreichen. Die Speicherkapazität erreichte laut Wikipedia bereits 2016 2,1 Exabyte pro Tape-Library, heute liegt sie wesentlich höher. Das macht sie geeignet für sehr große Datenmengen wie etwa in einen Data Lake.

Tapes sind zudem energieeffizienter als Festplatten oder Flash-Speicher, was in Zeiten von CO2-Zertifikaten eine Rolle spielt. Müssen sehr große Datenvolumina mit maximaler Sicherheit und minimalen Kosten transferiert werden, sparen Kassetten Übertragungskosten bei minimalem Risiko – solange man sie nicht auf dem Postweg verschickt.

Zweitens lassen sich vernetzte Tape-Libraries abkapseln oder gar offline nehmen: Durch den Air-Gap bieten sie optimalen Schutz vor Ransomware und anderer Schad-Software. Aktuelle Artikel zum Thema finden sich auf einer entsprechenden Unterseite von Storage-Insider.

WORM-Bänder sind revisionssichere Magnetbänder, die durch mehrere kombinierte Eigenschaften ebenfalls die Anforderungen an ein herkömmliches WORM-Medium erfüllen. Hierzu gehören spezielle Bandmedien sowie geschützte Kassetten und besondere Laufwerke, die die Einmalbeschreibbarkeit sicherstellen. Besonders in Rechenzentren, in denen Bandroboter und Library-Systeme („Tape-Libraries“) bereits vorhanden sind, stellen die WORM-Bänder eine einfach zu integrierende Komponente für die Langzeitarchivierung dar. Die vorhandene Steuersoftware kann mit den Medien umgehen und auch das entsprechende Umkopieren und Sichern automatisieren.

Besonders für größere Unternehmen und Verwaltungen mit Rechenzentren stellen Festplatten- oder WORM-Bandarchive eine Option dar, da sie sich einfach in den laufenden Betrieb integrieren lassen. Der Einsatz von WORM-Bändern für den Online-Zugriff ist jedoch zweifelhaft, da Wartezeiten sowohl für das Einlegen des Bandes per Roboter als auch Umspulzeiten anfallen. Damit ist die Latenzzeit für die Ansprüche der meisten Nutzer zu lang.

Sind die Daten in Containern organisiert, kann es zusätzlich innerhalb des Containers zu mehreren Umspulvorgängen für ein einzelnes Datenobjekt kommen (Lesen des Inhaltsverzeichnisses, Lesen des Datenobjektes, Lesen einer Checksumme). Damit verbunden ist eine entsprechende Beanspruchung der Hardware und der Bänder selbst. Auch Bänder halten nicht ewig. In jedem Fall sollte eine Datenkompression durchgeführt werden, optional auch Deduplizierung, nachdem große Dateimengen ins System eingespielt worden sind.

Aktuelles eBook

Open-Source-Storage – Speicher-Software zum Nulltarif

eBook Open-Source-Storage
eBook „Open-Source-Storage“
(Bild: Storage-Insider)

Der Bedarf an Speicherkapazität steigt von Tag zu Tag – nicht nur, um die Daten von Produkten, Kunden und Transaktionen zu sichern, sondern auch, um Compliance-Anforderungen zu erfüllen und Auditierungen gut zu überstehen. Eine leistungsfähige Storage-Lösung ist also gefragt. Eine kostenlose Option bietet Open-Source-Software für Storage, insbesondere dann, wenn man sie selbst den eigenen Anforderungen anpassen darf.

Die Themen im Überblick:

  • Warum Storage als Open Source?
  • NAS & Objektspeicher
  • Backup & Disaster Recovery
  • Dateisysteme
  • Technologiestapel & Ökosysteme

(ID:50161567)