Mobile-Menu

Langzeitarchivierung Die Zukunft der „kalten Daten“

Ein Gastbeitrag von Marcel Etzel* 7 min Lesedauer

Anbieter zum Thema

Mit dem massiven Wachstum rund um Generative KI wächst nicht nur der Bedarf an Daten selbst. Auch die Frage nach der richtigen Storage-Infrastruktur rückt für Unternehmen verstärkt in den Vordergrund. Ein Blick auf das Potential und die Rolle der Langzeitarchivierung.

Auch in „kalten“ Daten steckt Mehrwert – wenn sie richtig archiviert werden.(Bild:  ©Jorn-Pilon-Photography, Getty Images via Canva.com)
Auch in „kalten“ Daten steckt Mehrwert – wenn sie richtig archiviert werden.
(Bild: ©Jorn-Pilon-Photography, Getty Images via Canva.com)

Ein Word-Dokument von 1994 lässt sich mit Office 365 kaum oder nur über Umwege öffnen. Die Diskette ist als Dateiträger so veraltet, dass viele Digital Natives kaum noch wissen, warum es in Anwendungen als Symbol für das „Speichern“ steht. Und so allgegenwärtig die Cloud heute ist, weiß niemand, was die nächsten 20 oder 30 Jahre bringen. Geht es also darum, Dokumente und Daten über einen sehr langen Zeitraum aufzubewahren, stehen Unternehmen vor einigen grundlegenden Herausforderungen.

Langzeitarchiv, DMS & Cold Storage

Archivieren ist nicht gleich Archivieren. Als ein Unterscheidungsmerkmal lässt sich der gesetzlich definierte Aufbewahrungszeitraum heranziehen. Verträge, Personalakten oder geschäftsrelevante E-Mails, die nach GoBD sechs beziehungsweise zehn Jahre aufbewahrt werden müssen, fallen in der Regel nicht unter die Langzeitarchivierung. Sie lassen sich mit modernen Dokumentenmanagementsystemen (DMS) und Cloud-Archiven meist ohne große Probleme dauerhaft und revisionssicher aufbewahren.

Stehen Geschäftsunterlagen jedoch zum Beispiel im Zusammenhang mit der Einlageentsteuerung und des Eigenverbrauchs von unbeweglichen Gegenständen (siehe dazu: Art. 70 MWSTG, Ziff. 3), ist eine Aufbewahrung von 20 Jahren verpflichtend. Bei Urteilen, Mahnbescheiden, Prozessakten, Patientenakten, Renten- und Pensionskassenunterlagen sind es sogar 30 Jahre. All diese Dokumente gehören ins Langzeitarchiv.

Oft ist auch von Cold Storage und sogenannten „kalten Daten“ die Rede. Dazu zählen allgemein alle Datensätze, die ihren ursprünglichen Zweck erfüllt haben und auf die nur noch selten zugegriffen wird. Beim Archivieren kalter Daten ging es lange Zeit lediglich darum, Compliance-Vorgaben oder interne Richtlinien zu erfüllen. Doch das ändert sich zusehends.

GenAI macht hungrig auf Daten

Dass in den Archiven – und in den dort abgelegten Dokumenten und Daten – durchaus Mehrwert steckt, ist nicht verwunderlich. Immerhin fließen hier geschäftsrelevante Informationen aus unterschiedlichen Bereichen, Systemen und Datensilos an einer zentralen Stelle zusammen und werden miteinander verknüpft. Da der Prozess des Archivierens einer festen Systematik folgt, sind die Daten kuratiert. Gut organisierte Archive verfügen zudem über qualitativ hochwertige Metadaten, mit denen sich die Dokumente besser zuordnen, schneller abfragen und ganzheitlich analysieren lassen.

Das alles bietet ein äußerst spannendes Trainingsumfeld für Large Language Models (LLMs) und damit für den Einsatz Generativer KI (GenAI), die seit 2023 einen regelrechten Boom losgetreten hat. Chatbots wie ChatGPT oder Microsoft Copilot nutzen große Sprachmodelle, die wiederum auf eine enorme Menge an Daten trainiert wurden, um plausible, authentische Antworten in natürlicher Sprache geben zu können. Die erste Wahl für solche Daten sind natürlich aktive (heiße) Daten, das heißt Informationen, die für Entscheidungen und Prozesse im Unternehmen geschäftskritisch sind und auf die deshalb häufig zugegriffen wird.

Doch auch Archivdaten können unter Umständen einen guten Trainings-Pool darstellen: Ein Archiv hat nämlich nicht nur das nötige Datenvolumen. Es beinhaltet auch domänenspezifische Informationen, wodurch die Antworten der GenAI an Relevanz und Präzision gewinnen. Darüber hinaus erfüllt das Archiv in der Regel bereits umfassende Compliance- und Security-Vorgaben. Angesichts des wachsenden Katalogs gesetzlicher Anforderungen im KI-Umfeld ist das kein unwichtiges Detail.

Das Speicherdilemma

Welcher strategische Mehrwert tatsächlich in Archivdaten liegt und ob es sich lohnt, die kalten Daten „aufzuwärmen“, unterscheidet sich natürlich von Fall zu Fall. Klar ist aber auch: In der Vergangenheit gab es für Unternehmen – jenseits der Compliance – oft keinen zwingenden Grund, alte Daten über einen längeren Zeitraum hinweg überhaupt aufzubewahren. Mit dem Aufkommen von GenAI, Machine Learning (ML) und Data Analytics gewinnt das Archiv jedoch einen neuen Business-Case, und überraschend häufig verblüfft das Ergebnis.

Das KI-Wachstum könnte sich langfristig auch zu einem Treiber neuer Storage-Lösungen entwickeln. Bislang hatten Unternehmen insbesondere bei der Langzeitarchivierung keinen großen Spielraum und mussten je nach Anbieter oft Abstriche hinsichtlich Kosten, Skalierbarkeit und Sicherheit beziehungsweise langfristige Lesbarkeit eingehen. Gewinnt das Archiv im KI-Kontext allerdings an Bedeutung, ist anzunehmen, dass auch die Nachfrage nach kosteneffizienter, langfristiger Speicherung in großem Umfang steigt. Zumal nicht nur die Daten exponentiell wachsen, sondern auch Energie- und Nachhaltigkeitsaspekte eine immer größere Rolle spielen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Alternativen zu klassischen Archivdatenspeichern sind zumindest schon angedacht: Microsoft zum Beispiel hat mit dem Project Silica vor einigen Jahren die ersten Schritte unternommen, um Daten auf Glasmedien zu speichern. Die vielversprechenden Fortschritte und möglichen Methoden für den Einsatz (u. a. bei Microsoft Azure selbst) stellte der Konzern im Herbst 2023 vor. Das Fraunhofer Institut arbeitet an der Realisierung technischer Datenspeicher auf Basis der DNS (bzw. englisch DNA), wie sie bei Lebewesen vorkommt, und berichtet von bemerkenswerten Entwicklungsfortschritten. Von der Marktreife sind beide Verfahren allerdings noch weit entfernt.

Speichermedien und Speicherverfahren

Noch müssen Unternehmen bei der Archivierung auf gängige Speichermedien zurückgreifen. USB-Sticks und optische Speichermedien (CD/DVD) kommen aufgrund der begrenzten Haltbarkeit der Datenträger nur bedingt in Frage. Speziell für das Langzeitarchiv haben sich in den letzten beiden Jahrzehnten Magnetbänder (Tapes) sowie Festplatten (rotierende und solide) etabliert. Diese Systeme zeichnen sich durch die enge Verzahnung von Hardware, also der Datenträger, und Software aus. Doch jedes Speichermedium hat seine eigenen Vor- und Nachteile.

Tapes zum Beispiel sind kostengünstig und garantieren eine sichere, lange Aufbewahrung. Manche sehen die Bänder jedoch als veraltet an. Zudem liegt die Latenzzeit deutlich höher, was den Zugriff auf die Daten stark verlangsamt. Festplattenspeicher wiederum bieten einen besseren Zugang zu Archivdaten, können aber auch die Kosten nach oben treiben. Plattformen der nächsten Generation punkten hier mit Innovationen hinsichtlich des Materials, der Flächendichten und Mechanik.

Was die Speicherverfahren auf Festplatten angeht, sind zwei Varianten erwähnenswert:

  • Content-Addressed Storage (CAS) verfügt über eindeutige Identifikatoren (Unique Identifier, UIDs), also Codes aus Zahlen und Buchstaben, die eine eindeutig Zuordnung ermöglichen. Statt auf den Speicherort verweisen diese Identifikatoren auf den Inhalt eines Datenobjekts selbst. Das ermöglicht eine hohe Datenintegrität und Unveränderlichkeit der Daten. Darüber hinaus zeichnen sich CAS durch eine effiziente Speicherung, schnelle Datenabfrage und Skalierbarkeit aus. Das macht die Systeme zu einer idealen Option für die Langzeitarchivierung.
  • Integrated Content-Addressed Storage (iCAS) kombinieren das Verfahren von CAS mit zusätzlichen Funktionen und Erweiterungen zur Langzeitarchivierung. Dazu gehören eine integrierte Datenverwaltung sowie Archivierungsfunktionen (z. B. Metadatenverwaltung und Suchfunktionen). Die nahtlose Integration in bestehende IT-Infrastrukturen und Anwendungen stellt einen effizienten Datenzugriff und eine einfache Verwaltung archivierter Inhalte sicher. Darüber hinaus bietet iCAS zusätzliche Funktionen rund um die Sicherheit der Daten, unter anderem Verschlüsselung und Zugriffskontrolle.

Archiv der Zukunft

Das „eine“ oder „beste“ Speichermedium gibt es nicht. Für welche Storage-Lösungen und -Verfahren sich Unternehmen entscheiden, hängt von den zu archivierenden Daten ab und wie relevant sie für den Geschäftsbetrieb sind. Weitere Faktoren sind Compliance-Vorgaben, interne Richtlinien sowie letztlich Kosten, Ressourcen und Praktikabilität.

Sensible, sicherheitskritische Daten wurden lange Zeit in den eignen Rechenzentren aufbewahrt, wandern aber heute zunehmend in die Cloud. Auch schnell wachsende Datenquellen werden aufgrund der höheren Skalierbarkeit gerne in die Public Cloud verschoben. In bestimmten sicherheitskritischen Branchen (z. B. KRITIS) sind jedoch weiterhin spezielle Anforderungen zu erfüllen. Viele Unternehmen setzen daher oft auf eine Kombination. Eine Alternative sind zudem Managed Services und die Beauftragung eines Partners, der neben der eigentlichen Archivierung auch gleich Fragen um Sicherheit und Wartung handhabt.

Marcel Etzel, Produkt- und Entwicklungsleiter, EASY SOFTWARE AG.(Bild:  Marcel Etzel)
Marcel Etzel, Produkt- und Entwicklungsleiter, EASY SOFTWARE AG.
(Bild: Marcel Etzel)

Ob als KI-Trainingsumfeld oder als Compliance-Must-have – um das Managen und Archivieren ihrer Daten kommen Unternehmen nicht herum. Der Bestand an Dokumenten und Informationen ist in den letzten Jahren geradezu explodiert, und ein Ende ist nicht in Sicht. Zeit also, das Archiv nicht mehr nur als verstaubte Ablagefläche für auf Eis gelegte Dokumente zu betrachten. Als intelligente Schnittstelle und zentraler Wissens-Hub im Unternehmen kann es vielmehr Geschäftsprozesse einfacher und schneller gestalten und die digitale Transformation (einschließlich KI) effektiv vorantreiben.

* Der Autor: Marcel Etzel ist seit 2018 bei der EASY SOFTWARE AG und seit Januar 2022 Produkt- und Entwicklungsleiter (CPTO). Als ehemaliger Gründer und Experte für Innovation im Bereich der B2B-Software steuert er das easy-Produktportfolio in Richtung Zukunft mit Hilfe neuer Technologien wie Cloud und KI.

Aktuelles eBook

Datenmigration – so funktioniert der Storage-Umzug

eBook Datenmigration
eBook „Datenmigration“
(Bild: Storage-Insider)

Im Zuge der Digitalisierung ändern sich die Anforderungen an Storage-Systeme. Sie müssen leistungsfähiger, skalierbarer und insgesamt flexibler sein. Unternehmen führen neue Systeme wie etwa All-Flash-Arrays ein, verlagern Dienstleistungen der IT-Abteilung in die Public- oder Hybrid-Cloud, ziehen sogar das Rechenzentrum um und erkennen möglicherweise die Chance oder die Notwendigkeit, IT-Services und Storage-Infrastruktur zu konsolidieren.

Die Themen im Überblick:

  • Operation am offenen Herzen – Einleitung
  • Wann eine Datenmigration nötig und sinnvoll ist
  • Was bei der Datenmigration zu beachten ist
  • Die konkrete Umsetzung der Datenmigration
  • Sonderfälle und Fallstricke

(ID:50038094)