Grundlagen: (Langzeit-)Archivierung auf Tape und in der Cloud Digitale Archivierung im Überblick

Von Michael Matzer

Die (langfristige) Archivierung von Daten ist in zahlreichen Sparten und Branchen notwendig, sei es auf Grund von Kundenwünschen, sei es wegen gesetzlicher Vorgaben. Die technische Umsetzung lässt sich auf mehrfache Weise flexibel realisieren, etwa mit Bandlaufwerken. Wer indes in der Cloud speichert, sollte auf die jeweilige Archivierungsklasse achten.

Anbieter zum Thema

Papierarchive haben ihren ganz eigenen Charme, sind als direkte Folge der Digitalisierung jedoch aus der Mode gekommen. Auch die Datenarchivierung auf Tape gilt mittlerweile schon als traditionell – und erlebt derzeit eine Renaissance. Besonders hoch im Kurs steht jedoch die Archivierung in der (Public) Cloud.
Papierarchive haben ihren ganz eigenen Charme, sind als direkte Folge der Digitalisierung jedoch aus der Mode gekommen. Auch die Datenarchivierung auf Tape gilt mittlerweile schon als traditionell – und erlebt derzeit eine Renaissance. Besonders hoch im Kurs steht jedoch die Archivierung in der (Public) Cloud.
(© Jonás Torres - stock.adobe.com)

Das klassische Medium für digitale Archivierung ist das Band (Tape). Daten können je nach Zugriffsbedarf prinzipiell auf allen möglichen Speichermedien abgelegt werden, aus Kostengründen spielen aber HDDs und vor allem SSDs als Archivierungsziele eine untergeordnete beziehungsweise kaum eine Rolle. Cloud-Speicher hingegen sind mittlerweile für Archivierungszwecke attraktiv und beliebt. Gerade für diesen Fall ist Vorsicht geboten: Nicht jede Klasse lässt die Wiederherstellung und den Abruf von Archivinhalten binnen Millisekunden zu.

Anwendungsfälle

Medien- und Unterhaltungsinhalte wie Video- und Nachrichtenmaterial erfordern eine dauerhafte Speicherung und können im Laufe der Zeit auf viele Petabytes anwachsen. Viele dieser Daten müssen sofort verfügbar sein, etwa für Breaking-News, Video-Rendering oder Inhaltsentwicklung. Krankenhaussysteme sowie Genomforscher und Bildverwerter müssen zur Einhaltung der gesetzlichen Anforderungen jahrzehntelang Petabytes an Patientendaten (LIS, PACS, EHR und so weiter) aufbewahren.

Forschungsorganisationen erzeugen, analysieren und archivieren enorme Mengen an Daten, wie zum Beispiel bei der Genomik oder beim Trainieren von Machine-Learning-Modellen. Büchereien und Behörden müssen immer größere Anstrengungen zur Erhaltung digitaler Daten unternehmen. Viele Unternehmen, beispielsweise aus den Bereichen Finanz- oder Gesundheitsdienstleistung, müssen aus regulatorischen und Compliance-Gründen große Datenarchive über lange Zeiten aufbewahren.

Security & Compliance

Diese Kunden sind besonders auf die Unveränderlichkeit der Archivdaten angewiesen, etwa in Bezug auf die SEC-Regel 17a-4(f). Unternehmensrichtlinien müssen teilweise auch über Jahre hinweg aufbewahrt werden, besonders Finanz-, Steuer- und Personaldaten oder E-Mail-Aufzeichnungen. Eine zunehmend verbreitete Möglichkeit, die Unveränderlichkeit zu gewährleisten, stellt AWS S3 Glacier Object Lock dar.

Bei den Cloud-basierten Speicherklassen gibt es indes keine Vorabkosten und keine Wartungskosten – von den Energiekosten einmal abgesehen. Gleichzeitig bieten sie in aller Regel schnelleren Zugriff als On-Premises-Bandarchive, nämlich im Millisekundenbereich. Da in der Hybrid-Cloud ähnliche Bedingungen herrschen wie in der Public Cloud, liegt der Schwerpunkt dieses Beitrags auf der Archivierung in der Public Cloud.

Doch zunächst werfen wir einen Blick auf die traditionelle digitale Archivierung.

Bandspeicher

Lokale und externe Magnetbandbibliotheken ermöglichen eine sichere, kosteneffektive und energieeffiziente Datenspeicherung. Ihr großer Vorteil: Mit Hilfe von Bandlaufwerken können die Tapes sehr große Datenmengen auf kleinstem Raum, einer Kassette, speichern: Im Frühjahr 2021 brachte IBM eine LTO-Ultrium-9-Kassette mit der Speicherkapazität von 45 TB (komprimiert) auf den Markt. Die Übertragungsrate kann 12 Gbps (SAS) erreichen. Die Speicherkapazität erreichte 2016 laut Wikipedia bereits 2,1 Exabyte pro Tape-Library, heute liegt sie wesentlich höher. Das macht sie geeignet für sehr große Datenmengen wie etwa in einem Data Lake.

Tapes sind zudem energieeffizienter als Festplatten oder Flash-Speicher, was für in Zeiten von CO2-Zertifikaten eine Rolle spielt. Müssen sehr große Datenvolumina mit maximaler Sicherheit und minimalen Kosten transferiert werden, sparen Kassetten Übertragungskosten bei minimalem Risiko – solange man sie nicht auf dem Postweg verschickt.

Zweitens lassen sich vernetzte Tape-Libraries abkapseln oder gar offline nehmen: Durch den Air Gap bieten sie optimalen Schutz vor Ransomware und anderer Schad-Software.

Merkmale eines Cloud-Archivs und Kriterien

Wie schon bei den Anwendungsfällen angedeutet, muss ein Cloud-Archiv verschiedene Grundbedingungen erfüllen, um in die Auswahl gelangen zu können. Wird auch nur ein einziges dieser Kriterien nicht erfüllt, beispielsweise Compliance, sollte der Unternehmenskunde sich woanders umsehen. In der Datenwirtschaft kann die geringste Nachlässigkeit ein Geschäftsmodell zum Scheitern verurteilen oder ein Unternehmen in die Insolvenz treiben (durch Erpressung, Konventionalstrafen und so weiter).

Das Archiv muss virtuell unbegrenzt skalierbar sein und eine maximale Datenbeständigkeit (99 plus elf Neuner hinterm Komma) aufweisen. Die Abrechnung gemäß SLAs muss selbstredend transparent sein. Die Preise sollten günstig und die Abrufmöglichkeiten sollten flexibel sein und nicht nur eine Speicherklasse anbieten. Denn nicht alle Inhalte sind gleich, und Workloads können sich ändern. Das bedeutet, dass der Lesezugriff auf die Daten zwar schnellstmöglich erfolgen können muss, die Wiederherstellung etwa eines Dokuments dagegen Stunden dauern darf.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Amazon S3 Glacier Deep Archive

Kunden können bei Amazon S3 Glacier Deep Archive drei Archivspeicherklassen wählen, die für unterschiedliche Zugriffsmuster und Speicherdauer optimiert wurden.

Für Archivdaten, auf die sofortiger Zugriff erforderlich ist, wie etwa medizinische Bilder, Nachrichtenmedienkomponenten oder Genomikdaten, ist die Speicherklasse „S3 Glacier Instant Retrieval“ die erste Wahl, welche die kostengünstigste Speicherung mit Abrufen in Millisekunden bietet.

Für Archivdaten, auf die kein sofortiger Zugriff erforderlich ist, die aber die Flexibilität benötigen, große Datenmengen kostenlos abzurufen, wie etwa Backup- oder Notfallwiederherstellungsanwendungsfälle, wählen Kunden am besten „S3-Glacier-Flexible-Retrieval“ (ehemals „S3 Glacier“). Es gibt drei Abrufoptionen: beschleunigte Abrufe, die üblicherweise in einer bis fünf Minuten abschließen, Standard-Abrufe, die üblicherweise in drei bis fünf Stunden bereit sind, und Free-Bulk-Abrufe, die große Mengen an Daten typischerweise in fünf bis zwölf Stunden abrufen.

Um bei Langzeitarchivspeichern wie zum Beispiel Compliance-Archiven und der Aufbewahrung digitaler Medien noch mehr sparen zu können, wählen Kunden am besten „S3 Glacier Deep Archive“. Diese Speicherklasse stellt zwei Abrufoptionen bereit, die von zwölf bis 48 Stunden reichen. S3-Glacier-Daten werden redundant in mehrfachen Availability Zones gespeichert, die innerhalb einer AWS-Region physisch voneinander getrennt sind.

Sicherheit und Compliance

Die Amazon-S3-Glacier-Speicherklassen bieten eine ausgereifte Integration in AWS CloudTrail zur Protokollierung, Überwachung und Aufbewahrung von Speicher-API-Anrufaktivitäten zur Prüfung und unterstützen drei verschiedene Verschlüsselungsformen. Diese Speicherklassen unterstützen auch Sicherheitsstandards und Compliance-Zertifizierungen wie SEC Rule 17a-4, PCI-DSS, HIPAA/HITECH, FedRAMP, EU GDPR und FISMA.

MS Azure

Archivierung ist auch bei Microsoft Azure realisierbar. Archiv ist die kostengünstigste Speicherklasse neben „Heiß“ und „Kalt“. „Archiv“ (ab 180 Tagen Speicherdauer) wird als Offline-Speicherklasse bezeichnet, was bedeutet, dass die Zugriffs- und Latenzzeiten von erheblicher Bedeutung sein können. Für vorzeitige Löschung und so weiter fallen erhöhte Gebühren an. Die Archivebene wird für ZRS-, GZRS- oder RA-GZRS-Konten nicht unterstützt.

Google Cloud Platform (GCP)

Google Storage (Google Cloud Platform, GCP) ist der einzige große Public-Cloud-Anbieter, der die Preise für seine Archivierungsspeicherklassen gleich auf der entsprechenden Landing-Page angibt. Sie beginnen ab einem Preis von 0,0012 US-Dollar pro Gigabyte und Monat. Datenverschlüsselung, EMEA-Compliance und Verwaltung des Datenzyklus sind selbstverständlich.

S3 Object Lock

Amazon S3 Object Lock ermöglicht feingranulare WORM-Speicherfunktionen (write once, read many) und trägt dazu bei, die Compliance-Anforderungen von praktisch allen Behörden weltweit zu erfüllen. Es gibt zwei Methoden für die Nutzung: „Retention Period“ und „Legal Hold“.

Die Retention Period oder Aufbewahrungsdauer legt den Zeitraum fest, während dessen ein Objekt gesperrt bleibt. Das Objekt ist WORM-geschützt, lässt sich nicht löschen oder überschreiben. Die Festlegung erfolgt in Tagen oder Jahren. Das Minimum beträgt einen Tag, ein Maximum gibt es nicht. Ein Legal Hold gewährt den gleichen Schutz wie eine Retention Period, doch es gibt kein Ablaufdatum. Die Sperrung bleibt so lange bestehen, bis sie explizit aufgehoben wird.

Alle S3-Glacier-Speicherklassen sind in allen AWS-Regionen verfügbar, nutzen die Standard-S3-APIs und unterstützen alle S3-Funktionen – wie S3 Storage Lens zum Anzeigen von Speichernutzung und Aktivitätsmetriken, Server Side Encryption für Objektdaten, S3 Object Lock, um versehentliche Löschung zu verhindern, und AWS PrivateLink für den Zugriff auf S3 über einen privaten Endpunkt in einer VPC. Kunden können auch S3 Lifecycle verwenden, um Daten aus irgendeiner der S3-Speicherklassen zu einer kostengünstigeren Klasse zu verschieben, wenn auf die Daten seltener zugegriffen wird.

(ID:47975699)