ECM mit einem einheitlichen, herstellerunabhängigen Archivformat Langzeitarchivierung mit PDF/A

Autor / Redakteur: Thomas Schumacher / Nico Litzel

Im Zusammenspiel mit modernen Enterprise-Content-Management-Lösungen bietet PDF/A die Basis für eine langfristige Archivierung. Eine spezielle Kompression hilft, die Speicheranforderungen zu optimieren und Kosten zu sparen.

Der ISO-Standard PDF/A ist das Ergebnis einer weltweiten Zusammenarbeit von Branchenverbänden und Unternehmen. Eine PDF/A-Datei enthält alles, was zu ihrer Darstellung erforderlich ist und benötigt keine Informationen von außen, etwa Schriftarten, Treiber, oder Webinhalte.
Der ISO-Standard PDF/A ist das Ergebnis einer weltweiten Zusammenarbeit von Branchenverbänden und Unternehmen. Eine PDF/A-Datei enthält alles, was zu ihrer Darstellung erforderlich ist und benötigt keine Informationen von außen, etwa Schriftarten, Treiber, oder Webinhalte.
( Bild: © Robert Heitzmann – Fotolia.com )

Viele Unternehmen stehen vor der Herausforderung, ihre Prozesse weiter zu beschleunigen und gleichzeitig gesetzliche Vorgaben einzuhalten. Enterprise Content Management (ECM) ist daher zu einem der Kernbereiche der IT geworden. Bei ECM gibt es viele Kann-Themen, aber Archivierung und insbesondere die Langzeitarchivierung sind immer erforderlich. Egal ob aus eigenem Interesse oder veranlasst durch gesetzliche Vorgaben, Unternehmen müssen riesige Datenmengen langfristig archivieren und zwar so, dass die Daten auch in Jahrzehnten noch lesbar und verwertbar sind. Bits und Bytes so lange zu speichern, ist an sich kein Problem, aber die Entwicklung von Strategien, die den kontinuierlichen Wandel bei Anwendungen, Datenformaten und Standards überleben – das ist die große Herausforderung.

Durch den technischen Fortschritt sterben alte Betriebssysteme und Anwendungen aus und damit auch die jeweiligen Dateiformate. Was vielen nicht klar ist: Wer Daten nur in einem nativen Format ablegt, muss zwangsläufig auch das Equipment pflegen, mit dem diese Daten gelesen werden können, und zwar – je nach gesetzlicher Aufbewahrungsfrist – bis zu 30 Jahre. Welcher IT-Verantwortliche möchte sich aber in Zeiten wachsender persönlicher Haftung auf einen Jahrzehnte alten PC mit Floppy-Disk verlassen? Ein Ansatz wäre das permanente Konvertieren in neue Datenformate und das Überführen auf neue Speichermedien, sobald alte nicht mehr up to date sind. Aber das ist aufwendig, teuer und mit einem hohen Risiko verbunden.

Archivieren mit Perspektive

Die Lösung ist ein herstellerunabhängiges, einheitliches Archivformat. Über die Jahre wurden dazu verschiedene Formate genutzt, etwa TIFF, das herstellerunabhängig lesbar ist und – sehr wichtig aus Compliance-Gründen – nachträglich nicht mehr verändert werden kann. Man muss jedoch meist spezielle Viewer anschaffen, da zum Beispiel Farb-TIFFs mit Windows allein nicht angezeigt werden können.

Viele Unternehmen nutzen daher das Adobe-Format PDF, das vor allem durch den kostenlosen Reader praktisch allgegenwärtig ist. PDF hat viele Vorteile, aber auch einen gewichtigen Nachteil: Es handelt sich um die Spezifikation eines einzigen Herstellers, der keine Garantie geben kann, dass heutige PDF-Formate mit allen integrierten Funktionen auch in 20 Jahren noch unterstützt werden.

Um eine langfristige Reproduzierbarkeit und eine völlige Unabhängigkeit von Software und Wiedergabegerät zu gewährleisten, wurde daher PDF/A entwickelt. PDF/A ist das Ergebnis einer weltweiten Zusammenarbeit von Branchenverbänden und Unternehmen und seit 2005 ein ISO-Standard. Es definiert auf der Grundlage der PDF-Spezifikation 1.4 exakte Anforderungen an die Beschaffenheit der Zieldatei. Eine PDF/A-Datei enthält alles, was zu ihrer Darstellung erforderlich ist und benötigt keine Informationen von außen (Schriftarten, Treiber, Webinhalte oder Ähnliches). Das garantiert, dass das visuelle Erscheinungsbild erhalten bleibt, unabhängig von Systemen und Werkzeugen zur Herstellung, Speicherung und Reproduktion. Ein weiteres Plus: Texte können schriftbasierend und damit innerhalb der Datei durchsuchbar abgelegt werden.

Weiter mit: Input-Management mit PDF/A

Input-Management mit PDF/A

Die Zeiten, in denen Informationen ein Unternehmen ausschließlich auf dem Papierweg erreichen, sind lange passé. Neben dem nach wie vor wichtigem Papier gehören Fax und E-Mail als digitale Dokumente seit Jahren zum Pool von Informationen, der von Unternehmen gespeichert und verwaltet werden muss. Die Tendenz geht dabei eindeutig in Richtung digitale Dokumente, denn immer mehr Belege oder Rechnungen werden heute aus Kosten- und Effizienzgründen elektronisch erstellt und verschickt.

Unternehmen stehen in diesem Umfeld immer öfter in der Pflicht, aus Compliance-Gründen alle Arten von Dokumenten aufzuheben und vor allem ihre Kommunikation mit Kunden, Partnern aber auch intern nachzuweisen. Früher oder später müssen aller Voraussicht nach selbst SMS-Nachrichten oder Social-Media-Beiträge erfasst und gespeichert werden. Vor diesem Hintergrund gewinnt das Thema Input-Management und die Wandlung aller Dokumente in PDF/A zunehmend an Bedeutung.

Unternehmen, die sich für ein PDF/A-Archiv entschieden haben, müssen aber nicht nur neue Dokumente in dem Format abspeichern, sondern möglichst auch bestehende Datenmengen in PDF/A konvertieren, um am Ende einen einheitlichen Bestand zu haben. Für beide Aufgabenstellungen existieren Einzelanwendungen auf dem Markt, ab einer gewissen Größenordnung ist es jedoch entschieden sinnvoller, das Thema PDF/A im unternehmensweiten Kontext zu betrachten und auf eine Plattformstrategie zu setzen. So hat beispielsweise der Software-Anbieter Kofax frühzeitig PDF/A in seine Lösungen integriert und ist bereits heute in der Lage, die typischen Eingangskanäle eines Unternehmens auf PDF/A zu normalisieren.

Neben Scanning werden auch Fax und E-Mail so integriert, dass alle Kanäle in gleicher Weise verarbeitet werden können. Eine intelligente Dokumentenerkennung ermöglicht optional eine automatische Dokumententrennung, eine Klassifizierung und eine Datenextraktion – und schafft somit die Grundlage für automatisierte Geschäftsprozesse mit früher Erfassung.

Mit der Möglichkeit, alle diese Eingangskanäle auf PDF/A zu standardisieren, wird Kofax zu einer tragenden Säule bei der Umstellung. Sollte ein Unternehmen bereits über ein Archiv auf Basis von PDF oder TIFF verfügen, so lässt sich dieses natürlich auch automatisch nach PDF/A migrieren.

Erfassen und Bearbeiten

Mit Kofax Capture existiert eine Gesamtlösung, deren Module den Scan, die automatisierte Erkennung und das Auslesen aller auf den unterschiedlichen Eingangskanälen erhaltenen Dokumente und die Ablage im PDF/A-Format und Übergabe der digitalisierten Dokumente an das genutzte Archivierungssystem ermöglichen.

Am Anfang steht dabei das effiziente Scannen der Dokumente mit hoch effizienten Stapel-Scannern. Zur Steigerung der Qualität der Scans kommt die integrierte VirtualReScan-Technologie (VRS) zum Einsatz. Sie optimiert das Dokumentenimage, indem sie beispielsweise Ränder und Lochungen entfernt, Schrägeinzüge korrigiert und erfasste Inhalte optisch verbessert. Die Scanner können durch Multifunktionsgeräte (MFP), Fax, E-Mail, EDI und andere Kanäle ergänzt werden – die Besonderheit ist bei diesem Ansatz, dass alle Kanäle in der gleichen Weise verarbeitet werden („Single Pipe“). Das reduziert den Einrichtungsaufwand, die Risiken und die Kosten.

Weiter mit: Maschinelle Interpretation

Maschinelle Interpretation

Damit eingehende Dokumente in automatisierte Geschäftsprozesse einfließen können, erfolgt nach der Erfassung das maschinelle Interpretieren von Dokumenteninhalten. Der erste Schritt ist dabei die automatische Trennung von Dokumenten. Als klassische Trennmethoden haben sich Barcodes oder eingefügten Trennseiten bewährt. Position und Drehung der Barcodes spielen dabei keine Rolle, es kann also auch problemlos mit Aufklebern gearbeitet werden.

Noch intelligenter ist eine auf Klassifikation beruhende automatische Dokumententrennung, welche durch die „Kofax Transformation Modules“ (KTM) bereitgestellt werden. Die KTM bieten Mechanismen zur automatischen Erkennung der Inhalte, und sorgen dafür, dass beispielsweise Rechnungen, Briefe und Formulare klassifiziert, Indexdaten ausgelesen und die Vorgänge an den richtigen Sachbearbeiter weitergeleitet werden. In bestimmten Fällen, etwa bei Rechnungen mit Bestellbezug, können Dokumente sogar ohne menschliches Zutun verarbeitet werden (sogenannte Dunkelbuchung). Neben der Zuordnung der Dokumente zu Kunden oder Vorgängen können auch der komplette Dokumenteninhalt als durchsuchbarer Volltext im PDF/A hinterlegt werden.

Geschäftsprozesse nahtlos einbinden

Neben Papier, Fax oder E-Mail existiert jedoch ein weiterer wichtiger Produzent von Dokumenten: Anwendungen. Egal ob Textverarbeitung, Tabellenkalkulation oder ERP-System, alle Anwendungen produzieren in großem Umfang digitale Dokumente, die größtenteils nie ausgedruckt werden, aber dennoch zu sichern und bei Bedarf in PDF/A zu überführen sind.

Für solche Dokumente existieren diverse Konverter auf dem Markt, die sich nachträglich anwenden oder aber direkt in den Geschäftsprozess einklinken lassen. So lassen sich große Mengen von Daten automatisch in PDF/A wandeln und Datenbankinhalte oder Druckdatenströme in PDF/A konvertieren. Zudem ist zu erwarten, dass immer mehr Anwendungen auch direkt PDF/A als Ausgabeformat anbieten, so wie das bereits bei Microsoft Office 2010 der Fall ist.

Komprimierung senkt die Kosten

Die Vermeidung von dynamischen Inhalten sorgt dafür, dass jeder Anwender auf jedem System denselben Inhalt sieht, da alles, was zur Darstellung der Datei benötigt wird, in das PDF/A-Dokument eingebettet ist. Dadurch steigt deren Dateigröße jedoch schnell um zehn bis 20 Prozent gegenüber herkömmlichen PDFs an. Für die Langzeitarchivierung ist das Datenvolumen aber der entscheidende Kostenblock: Auch in Zeiten sinkender Speicherpreise sind die Anforderungen an ein umfassendes Archiv enorm, die Größe der Archive kann in den Terabyte-Bereich gehen.

Ein probates Mittel zur Reduzierung der Dateigröße ist die Kompression der PDF/A-Dateien. Auch hier stehen zahlreiche verschiedene Lösungen zur Auswahl. Kofax hat einen eigenen Kompressionsalgorithmus entwickelt, der gegenüber normal komprimierten PDF/A-Dateien die Dateigröße bei Schwarzweiß-Dokumenten noch einmal um den Faktor 2 und bei farbigen Dokumenten sogar um den Faktor 10 und darüber hinaus reduzieren kann. Das Besondere daran ist die Integration dieser speziellen Kompression in den durchgehenden Bearbeitungsprozess. Der Kunde muss keine zusätzliche Technologie einbinden und kann direkt von dem erheblich geringeren Platzbedarf profitieren.

Weiter mit: Kompression hält das Archiv schlank

Kompression hält das Archiv schlank

Neben zahlreichen Verbesserungen in der Qualität der dokumentenbasierten Prozesse ist das eine unmittelbare Einsparung durch die Software, die zu einer schnellen Amortisierung der Investitionen beiträgt – kurzfristig, weil das aktuelle Archiv weniger Platz benötigt, und zukünftig, weil die Kompression das Wachstum des Archivs verlangsamt. Kleinere Dateien reduzieren auch die Belastung der Netzwerke und ermöglichen schnellere Ladezeiten für den Anwender. Alle Vorteile des PDF/A-Formates bleiben selbstverständlich bestehen.

Neue PDF/A-Version kommt 2011

Mittlerweile ist bereits die nächste Version, PDF/A-2, in Arbeit. Sie setzt auf der PDF-Version 1.7. auf, die Veröffentlichung wird für dieses Jahr erwartet. Die neue Version wird bessere Kompressionen ermöglichen, praktisch uneingeschränkt große Seiten unterstützen (die Rede ist von bis zu 381 Kilometern im Quadrat), Kommentare erlauben, verbesserte Unterstützung von Signaturen bieten und 3D-Grafiken sowie Audio- oder Videodaten integrieren können.

Als wohl wichtigste Neuerung enthält sie einen zusätzlichen PDF-Layer, in dem sich beispielsweise weitere Sprachen oder zusätzliche Bilder ablegen lassen, die bei Betrachtung an- und abgeschaltet werden können. Auch die Einbettung von PDF/A in PDF/A ist dann möglich. Das erlaubt die Ablage von E-Mails inklusive Anhänge und die bessere Organisation von E-Akten.

Für eine gesicherte Zukunft sorgt auch das weltweit aktive PDF/A Competence Center, dem viele namhafte Firmen angehören. Pannen bei der Datenarchivierung wird es immer wieder geben, aber Probleme, wie sie die NASA Ende der 80er-Jahre hatte, als man die nur zehn Jahre alten Magnetbänder mit Daten der Raumsonde Viking nicht mehr lesen konnte, müssen nicht mehr sein.

(ID:2049919)