Kommentar von Kurt Gerecke, Certified Storage Consultant bei IBM Richtig archivieren mit dem IBM Information Archive

Redakteur: Nico Litzel

Die Vielzahl unterschiedlichster Archivierungslösungen, die heute auf dem Markt angeboten werden, macht es unumgänglich, die Anforderungen an zeitgemäße Langzeitarchive genau zu definieren. Nur so lässt sich beurteilen, ob die angebotenen Lösungen sinnvoll und langfristig einsetzbar sind, sodass sie auch noch nach vielen Jahren den wechselnden Anforderungen entsprechen können.

Firmen zum Thema

Der Autor: Diplom-Physiker Kurt Gerecke ist Certified Storage Consultant bei IBM.
Der Autor: Diplom-Physiker Kurt Gerecke ist Certified Storage Consultant bei IBM.
( Archiv: Vogel Business Media )

Es gibt heute auf dem Markt reine Softwarelösungen, die Hardware-unabhängig eingesetzt werden können. Ebenso stehen reine Hardwarelösungen zur Verfügung, die allein auf Plattentechnologie beruhen und Hybridlösungen, die beides miteinander verbinden und auch sinnvollerweise eine Anbindung an Tape Libraries bieten.

Tape spielt im Bereich der Langzeitarchivierung eine immer größer werdende Rolle. Zum einen werden sich die Kassettenkapazitäten in den nächsten Jahren sprunghaft nach oben entwickeln und große Bandkapazitäten zur Verfügung stellen. Zum anderen benötigt eine Bandkassette, wenn sie einmal beschrieben ist, keinen Strom. Auch die Haltbarkeit von Bandkassetten hat sich in den letzten Jahren nachweislich auf 30 Jahre und mehr weiterentwickelt, ohne dass große Impulsverluste auftreten.

Neue Anforderungen an die Archivierung

Die Anforderungen an die Archivierung haben sich in den letzten Jahren verändert. Neben der klassischen Aufbewahrung von Daten aufgrund von gesetzlichen oder firmeninternen Vorschriften kommen weitere Anforderungsprofile, wie eine erhöhte Zugriffsgeschwindigkeit und eine automatische Auslagerung von nicht mehr operational genutzten Daten auf Archivsystemen.

Des Weiteren sind heute Archivlösungen gefragt, die ein hierarchisches Speichermanagement beinhalten und damit die Möglichkeit bieten, archivierte Daten automatisch nach ILM-Regulatorien (Information Lifecycle Management) auf unterschiedlichen Speichersystemen zu verwalten. Aufgrund der immer größer werdenden Datenmengen im Archivierungsbereich sind heute sehr leistungsfähige und skalierbare Archivsysteme gefragt, die zudem die Anforderungen nach Hochverfügbarkeit und Datensicherheit gewährleisten müssen.

Das gilt sowohl für die Archivierung der klassischen Dokumenten- beziehungsweise Content-Managementsysteme als auch für Anwendungen auf Filesystem-Basis. Moderne Archivlösungen müssen zudem die Migrationsanforderung hinsichtlich der Daten als auch des Systems selbst erfüllen, wenn neue Technologien zur Verfügung stehen. Die automatische Migrationsmöglichkeit auf neue Technologien muss heute bei jeder Archivlösung im Vordergrund stehen!

Weiter mit: IBM Information Archive (IIA)

IBM Information Archive (IIA)

IBM kündigte im Februar dieses Jahres das neue Archivierungssystem „IBM Information Archive“, kurz IIA, als Nachfolger des bisherigen DR550-Systems an. Mit dem neuen System werden die veränderten beziehungsweise erweiterten Anforderungen an Archivsysteme adressiert. IIA ist eine universelle Lösung zur Archivierung von strukturierten und unstrukturierten Daten, die sowohl gesetzlichen Aufbewahrungsvorschriften erfüllt, als auch generell der vorschriftsfreien Datenhaltung im Langzeitbereich Rechnung trägt.

Das System zeichnet sich dadurch aus, dass es eine hohe Flexibilität in der Datenspeicherung bietet, weil zu archivierende Anwendungen durch unterschiedliche standardisierte Zugriffsmethoden möglich werden. Die hohe Leistungsfähigkeit und Skalierbarkeit sind besondere Merkmale des Systems.

Architektur

Das System besteht aus bis zu drei Rechnerknoten (in der IIA-Terminologie als „Collection“ bezeichnet), die intern mit den Plattenarrays durch ein Fibre-Channel-Netz miteinander verbunden sind und sich gegenseitig durch das integrierte GPFS (Generell Parallel File System) Backup geben und damit eine hohe Verfügbarkeit gewährleisten.

Per Knoten können Anwendungen zum einen via NAS-Interface durch die NFS- oder Http-Schnittstellen oder über die klassische SSAM, System Storage Archive Manager (TSM-API) Schnittstelle angebunden werden. Zu einem späteren Zeitpunkt werden auch FTP und CIFS unterstützt werden. Dabei sind die Knoten hinsichtlich der zu adressierenden Schnittstellen zu den Anwendungen frei wählbar. Dabei bieten beide Schnittstellen die Möglichkeit, andere Infrastrukturen, beispielsweise Tape, anzuschließen.

Die Möglichkeit, mehrere Archivierungsinstanzen gleichzeitig innerhalb eines Systems zu betreiben, erhöht die Leistungsfähigkeit des Gesamtsystems beträchtlich. Im Unterschied zur DR550 basiert die Datenbank des SSAM-Servers durch die Integration von TSM 6.1 auf DB2. Damit wird die Anzahl der zu speichernden Datenobjekte um den Faktor drei pro Collection erhöht.

Der SSAM-Server sorgt für die Datenmigration auf angeschlossenen externen Speichern. Innerhalb einer Collection zur File-Anbindung (Knoten mit NAS-Interface) werden Daten, die auf externen Storage wie zum Beispiel Tape ausgelagert werden sollen, durch den internen TSM-Server mittels seiner HSM-Funktionalität migriert. Das Management und die Administration des Systems werden über eine einheitliche Bedieneroberfläche durchgeführt.

Weiter mit: Technischer Aufbau

Technischer Aufbau

Die Rechnerknoten (GPFS-Knoten) bestehen aus einem IBM-System-x-Server mit zwei Quadcore-Prozessoren, 24 Gigabyte Memory und einem Linux-Betriebssystem. Bis zu drei Knoten können innerhalb eines Clusters konfiguriert werden.

Für das Management des Systems wird ein IBM System x mit einem Quadcore-Prozessor und vier Gigabyte Memory verwendet.

Die Plattenarrays bestehen aus Ein-Terabyte-SATA-Platten und werden mit RAID 6 an doppelt redundanten Active/Active-Plattensteuereinheiten betrieben. Jede Steuereinheit ist mit zwei Gigabyte Cache ausgestattet und bietet bis zu 2 x 4 Gbit FC-Ports für die Serveranbindung und bis zu 2 x 4 Gbit FC-Ports für die Remote-Spiegelung.

Die Rechnerknoten und die Plattensteuereinheiten sind durch ein 8-Gbit-FC-SAN auf Basis von 24-Port-Switchen miteinander verbunden, wobei der Betrieb am Anfang auf Basis von 4 Gbit läuft. Jeder Plattencontroller hat Zugriff auf jeden GPFS-Knoten und umgekehrt.

Die Maximalkonfiguration besteht aus zwei Gehäuseeinheiten und bildet eine Bruttokapazität von 304 Terabyte ab. Davon sind 209 Terabyte nutzbar. Im ersten Rack beträgt die Plattenkapazität bis zu 112 Terabyte brutto (77 Terabyte nutzbar). Im zweiten Rack können bis zu 2 x 96 Terabyte brutto (2 x 66 Terabyte nutzbar) dazukonfiguriert werden.

Der Anschluss von Tape-Laufwerken und Tape Libraries wird voll unterstützt. Damit kann eine IIA-Lösung zusammen mit Tape Libraries als Hybridlösung viele Petabytes an Archivierungsdaten aufnehmen. Die Plattenkapazität der IIA dient in einer solchen Hybridlösung als Cache für die Daten und Objekte, auf die noch häufig Zugriffe erfolgen. Lässt die Zugriffshäufigkeit nach, werden die Daten in die Tape Library verlagert und auf kostengünstigen Kassetten abgespeichert, die keinen Strom benötigen.

Fazit

Die neue Architektur des IBM Information Archive bietet zukünftig skalierbare Erweiterungsmöglichkeiten, indem das System mit zusätzlichen Rechnerknoten und zusätzlicher Plattenkapazität erweitert werden kann. Das System bietet im Archivierungsbereich die erste „Scale Out Grid“-Architektur, das in Verbindung mit Tape riesige Datenmengen aufnehmen kann und dem sprunghaften Datenwachstum im Archivierungsumfeld Rechnung trägt.

50 Jahre Speichertechnik im Überblick

Kurt Gerecke hat die Speichergeschichte der IBM in einem reich illustrierten Kompendium zusammengetragen. Hier erhalten Sie Informationen, wie Sie sich gratis ein Exemplar sichern können!

(ID:2047801)