Mit dem massiven Wachstum rund um Generative KI wächst nicht nur der Bedarf an Daten selbst. Auch die Frage nach der richtigen Storage-Infrastruktur rückt für Unternehmen verstärkt in den Vordergrund. Ein Blick auf das Potential und die Rolle der Langzeitarchivierung.
Auch in „kalten“ Daten steckt Mehrwert – wenn sie richtig archiviert werden.
Ein Word-Dokument von 1994 lässt sich mit Office 365 kaum oder nur über Umwege öffnen. Die Diskette ist als Dateiträger so veraltet, dass viele Digital Natives kaum noch wissen, warum es in Anwendungen als Symbol für das „Speichern“ steht. Und so allgegenwärtig die Cloud heute ist, weiß niemand, was die nächsten 20 oder 30 Jahre bringen. Geht es also darum, Dokumente und Daten über einen sehr langen Zeitraum aufzubewahren, stehen Unternehmen vor einigen grundlegenden Herausforderungen.
Langzeitarchiv, DMS & Cold Storage
Archivieren ist nicht gleich Archivieren. Als ein Unterscheidungsmerkmal lässt sich der gesetzlich definierte Aufbewahrungszeitraum heranziehen. Verträge, Personalakten oder geschäftsrelevante E-Mails, die nach GoBD sechs beziehungsweise zehn Jahre aufbewahrt werden müssen, fallen in der Regel nicht unter die Langzeitarchivierung. Sie lassen sich mit modernen Dokumentenmanagementsystemen (DMS) und Cloud-Archiven meist ohne große Probleme dauerhaft und revisionssicher aufbewahren.
Stehen Geschäftsunterlagen jedoch zum Beispiel im Zusammenhang mit der Einlageentsteuerung und des Eigenverbrauchs von unbeweglichen Gegenständen (siehe dazu: Art. 70 MWSTG, Ziff. 3), ist eine Aufbewahrung von 20 Jahren verpflichtend. Bei Urteilen, Mahnbescheiden, Prozessakten, Patientenakten, Renten- und Pensionskassenunterlagen sind es sogar 30 Jahre. All diese Dokumente gehören ins Langzeitarchiv.
Oft ist auch von Cold Storage und sogenannten „kalten Daten“ die Rede. Dazu zählen allgemein alle Datensätze, die ihren ursprünglichen Zweck erfüllt haben und auf die nur noch selten zugegriffen wird. Beim Archivieren kalter Daten ging es lange Zeit lediglich darum, Compliance-Vorgaben oder interne Richtlinien zu erfüllen. Doch das ändert sich zusehends.
GenAI macht hungrig auf Daten
Dass in den Archiven – und in den dort abgelegten Dokumenten und Daten – durchaus Mehrwert steckt, ist nicht verwunderlich. Immerhin fließen hier geschäftsrelevante Informationen aus unterschiedlichen Bereichen, Systemen und Datensilos an einer zentralen Stelle zusammen und werden miteinander verknüpft. Da der Prozess des Archivierens einer festen Systematik folgt, sind die Daten kuratiert. Gut organisierte Archive verfügen zudem über qualitativ hochwertige Metadaten, mit denen sich die Dokumente besser zuordnen, schneller abfragen und ganzheitlich analysieren lassen.
Das alles bietet ein äußerst spannendes Trainingsumfeld für Large Language Models (LLMs) und damit für den Einsatz Generativer KI (GenAI), die seit 2023 einen regelrechten Boom losgetreten hat. Chatbots wie ChatGPT oder Microsoft Copilot nutzen große Sprachmodelle, die wiederum auf eine enorme Menge an Daten trainiert wurden, um plausible, authentische Antworten in natürlicher Sprache geben zu können. Die erste Wahl für solche Daten sind natürlich aktive (heiße) Daten, das heißt Informationen, die für Entscheidungen und Prozesse im Unternehmen geschäftskritisch sind und auf die deshalb häufig zugegriffen wird.
Doch auch Archivdaten können unter Umständen einen guten Trainings-Pool darstellen: Ein Archiv hat nämlich nicht nur das nötige Datenvolumen. Es beinhaltet auch domänenspezifische Informationen, wodurch die Antworten der GenAI an Relevanz und Präzision gewinnen. Darüber hinaus erfüllt das Archiv in der Regel bereits umfassende Compliance- und Security-Vorgaben. Angesichts des wachsenden Katalogs gesetzlicher Anforderungen im KI-Umfeld ist das kein unwichtiges Detail.
Das Speicherdilemma
Welcher strategische Mehrwert tatsächlich in Archivdaten liegt und ob es sich lohnt, die kalten Daten „aufzuwärmen“, unterscheidet sich natürlich von Fall zu Fall. Klar ist aber auch: In der Vergangenheit gab es für Unternehmen – jenseits der Compliance – oft keinen zwingenden Grund, alte Daten über einen längeren Zeitraum hinweg überhaupt aufzubewahren. Mit dem Aufkommen von GenAI, Machine Learning (ML) und Data Analytics gewinnt das Archiv jedoch einen neuen Business-Case, und überraschend häufig verblüfft das Ergebnis.
Das KI-Wachstum könnte sich langfristig auch zu einem Treiber neuer Storage-Lösungen entwickeln. Bislang hatten Unternehmen insbesondere bei der Langzeitarchivierung keinen großen Spielraum und mussten je nach Anbieter oft Abstriche hinsichtlich Kosten, Skalierbarkeit und Sicherheit beziehungsweise langfristige Lesbarkeit eingehen. Gewinnt das Archiv im KI-Kontext allerdings an Bedeutung, ist anzunehmen, dass auch die Nachfrage nach kosteneffizienter, langfristiger Speicherung in großem Umfang steigt. Zumal nicht nur die Daten exponentiell wachsen, sondern auch Energie- und Nachhaltigkeitsaspekte eine immer größere Rolle spielen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Alternativen zu klassischen Archivdatenspeichern sind zumindest schon angedacht: Microsoft zum Beispiel hat mit dem Project Silica vor einigen Jahren die ersten Schritte unternommen, um Daten auf Glasmedien zu speichern. Die vielversprechenden Fortschritte und möglichen Methoden für den Einsatz (u. a. bei Microsoft Azure selbst) stellte der Konzern im Herbst 2023 vor. Das Fraunhofer Institut arbeitet an der Realisierung technischer Datenspeicher auf Basis der DNS (bzw. englisch DNA), wie sie bei Lebewesen vorkommt, und berichtet von bemerkenswerten Entwicklungsfortschritten. Von der Marktreife sind beide Verfahren allerdings noch weit entfernt.
Noch müssen Unternehmen bei der Archivierung auf gängige Speichermedien zurückgreifen. USB-Sticks und optische Speichermedien (CD/DVD) kommen aufgrund der begrenzten Haltbarkeit der Datenträger nur bedingt in Frage. Speziell für das Langzeitarchiv haben sich in den letzten beiden Jahrzehnten Magnetbänder (Tapes) sowie Festplatten (rotierende und solide) etabliert. Diese Systeme zeichnen sich durch die enge Verzahnung von Hardware, also der Datenträger, und Software aus. Doch jedes Speichermedium hat seine eigenen Vor- und Nachteile.
Tapes zum Beispiel sind kostengünstig und garantieren eine sichere, lange Aufbewahrung. Manche sehen die Bänder jedoch als veraltet an. Zudem liegt die Latenzzeit deutlich höher, was den Zugriff auf die Daten stark verlangsamt. Festplattenspeicher wiederum bieten einen besseren Zugang zu Archivdaten, können aber auch die Kosten nach oben treiben. Plattformen der nächsten Generation punkten hier mit Innovationen hinsichtlich des Materials, der Flächendichten und Mechanik.
Was die Speicherverfahren auf Festplatten angeht, sind zwei Varianten erwähnenswert:
Content-Addressed Storage (CAS) verfügt über eindeutige Identifikatoren (Unique Identifier, UIDs), also Codes aus Zahlen und Buchstaben, die eine eindeutig Zuordnung ermöglichen. Statt auf den Speicherort verweisen diese Identifikatoren auf den Inhalt eines Datenobjekts selbst. Das ermöglicht eine hohe Datenintegrität und Unveränderlichkeit der Daten. Darüber hinaus zeichnen sich CAS durch eine effiziente Speicherung, schnelle Datenabfrage und Skalierbarkeit aus. Das macht die Systeme zu einer idealen Option für die Langzeitarchivierung.
Integrated Content-Addressed Storage (iCAS) kombinieren das Verfahren von CAS mit zusätzlichen Funktionen und Erweiterungen zur Langzeitarchivierung. Dazu gehören eine integrierte Datenverwaltung sowie Archivierungsfunktionen (z. B. Metadatenverwaltung und Suchfunktionen). Die nahtlose Integration in bestehende IT-Infrastrukturen und Anwendungen stellt einen effizienten Datenzugriff und eine einfache Verwaltung archivierter Inhalte sicher. Darüber hinaus bietet iCAS zusätzliche Funktionen rund um die Sicherheit der Daten, unter anderem Verschlüsselung und Zugriffskontrolle.
Archiv der Zukunft
Das „eine“ oder „beste“ Speichermedium gibt es nicht. Für welche Storage-Lösungen und -Verfahren sich Unternehmen entscheiden, hängt von den zu archivierenden Daten ab und wie relevant sie für den Geschäftsbetrieb sind. Weitere Faktoren sind Compliance-Vorgaben, interne Richtlinien sowie letztlich Kosten, Ressourcen und Praktikabilität.
Sensible, sicherheitskritische Daten wurden lange Zeit in den eignen Rechenzentren aufbewahrt, wandern aber heute zunehmend in die Cloud. Auch schnell wachsende Datenquellen werden aufgrund der höheren Skalierbarkeit gerne in die Public Cloud verschoben. In bestimmten sicherheitskritischen Branchen (z. B. KRITIS) sind jedoch weiterhin spezielle Anforderungen zu erfüllen. Viele Unternehmen setzen daher oft auf eine Kombination. Eine Alternative sind zudem Managed Services und die Beauftragung eines Partners, der neben der eigentlichen Archivierung auch gleich Fragen um Sicherheit und Wartung handhabt.
Marcel Etzel, Produkt- und Entwicklungsleiter, EASY SOFTWARE AG.
(Bild: Marcel Etzel)
Ob als KI-Trainingsumfeld oder als Compliance-Must-have – um das Managen und Archivieren ihrer Daten kommen Unternehmen nicht herum. Der Bestand an Dokumenten und Informationen ist in den letzten Jahren geradezu explodiert, und ein Ende ist nicht in Sicht. Zeit also, das Archiv nicht mehr nur als verstaubte Ablagefläche für auf Eis gelegte Dokumente zu betrachten. Als intelligente Schnittstelle und zentraler Wissens-Hub im Unternehmen kann es vielmehr Geschäftsprozesse einfacher und schneller gestalten und die digitale Transformation (einschließlich KI) effektiv vorantreiben.
* Der Autor: Marcel Etzel ist seit 2018 bei der EASY SOFTWARE AG und seit Januar 2022 Produkt- und Entwicklungsleiter (CPTO). Als ehemaliger Gründer und Experte für Innovation im Bereich der B2B-Software steuert er das easy-Produktportfolio in Richtung Zukunft mit Hilfe neuer Technologien wie Cloud und KI.
Aktuelles eBook
Datenmigration – so funktioniert der Storage-Umzug
eBook „Datenmigration“
(Bild: Storage-Insider)
Im Zuge der Digitalisierung ändern sich die Anforderungen an Storage-Systeme. Sie müssen leistungsfähiger, skalierbarer und insgesamt flexibler sein. Unternehmen führen neue Systeme wie etwa All-Flash-Arrays ein, verlagern Dienstleistungen der IT-Abteilung in die Public- oder Hybrid-Cloud, ziehen sogar das Rechenzentrum um und erkennen möglicherweise die Chance oder die Notwendigkeit, IT-Services und Storage-Infrastruktur zu konsolidieren.