Mobile-Menu

Kommentar von Hans Schramm, Dell, zur objektorientierten Speicherung Strukturierte und unstrukturierte Daten effizient verwalten

Autor / Redakteur: Hans Schramm / Nico Litzel

Viele Unternehmen handeln auch heute noch nach dem Motto „alles wird für die Ewigkeit gespeichert.“ Ein solches Vorgehen übersieht die Unterschiede zwischen strukturierten und unstrukturierten Daten. Eine Möglichkeit, die unstrukturierten Daten in den Griff zu bekommen, bietet die objektorientierte Speicherung und Verwaltung.

Anbieter zum Thema

Der Autor: Hans Schramm ist Field Product Manager Enterprise bei Dell in Frankfurt am Main
Der Autor: Hans Schramm ist Field Product Manager Enterprise bei Dell in Frankfurt am Main

Nicht alle Daten sich gleich: Marktforschern zufolge sind nur rund zehn Prozent der in Unternehmen gespeicherten Daten „aktiv“. Sie ändern sich immer wieder, etwa weil in den betriebswirtschaftlichen Standardsystemen neue Datensätze hinzukommen und vorhandene geändert werden.

Weitere 20 Prozent der Daten werden zumindest hin und wieder gelesen und modifiziert, beispielsweise Adressangaben. Die verbleibenden 70 Prozent der Daten werden einmal erzeugt und in danach nur in seltenen Fällen wieder benötigt: Verträge, Rechnungen, Geschäftsbelege mit digitalen Signaturen, Grafiken, Bilder oder Flurkarten.

Marktforscher schätzen, dass sich die Menge digitaler Informationen in Zukunft alle zwei Jahre verdoppeln wird. Laut IDC gehen 95 Prozent dieses Wachstums auf das Konto der unstrukturierten und nur fünf Prozent auf das der strukturierten Daten.

Strukturierte Daten entstehen häufig im Verlauf geschäftlicher Transaktionen, und deren Ergebnisse werden dann meist in relationalen Datenbanken gespeichert. Aus verwaltungstechnischer Sicht bilden Inhalt und Kontext der Informationen keine besonderen Probleme. Bei jeder Bestellung ist es meist problemlos möglich, den Kundennamen, seine Adresse, die einzelnen Artikel und das vorgesehene Lieferdatum in den relationalen Tabellen einer Datenbank zu ermitteln.

Für Speicheradministratoren ist es daher einfach, wenn beispielsweise Berichte oder Auswertungen anstehen, den Kontext einer Transaktion nachzuvollziehen. Es lässt sich ferner leicht feststellen, wann eine Transaktion abgeschlossen ist, die Daten nicht mehr im Geschäftsalltag benötigt werden und sie daher auf Archivmedien ausgelagert werden können.

Unstrukturierte Daten: die neue Herausforderung

Unstrukturierte Daten werden außerhalb eines herkömmlichen Datenbanksystems gespeichert. Die Informationen werden anschließend nur noch selten – und manchmal nie wieder – benötigt. Ein gutes Beispiel dafür sind Röntgenbilder, die einem Arzt bei der Diagnose eines Patienten helfen.

Ist die Behandlung abgeschlossen und der Patient geheilt, wandern die Aufnahmen ins Archiv. Nur in Ausnahmefällen, wenn es darum geht, ein komplettes Bild der Krankheitsgeschichte eines Patienten zu zeichnen, werden die Aufnahmen noch einmal benötigt.

Speicheradministratoren stehen in diesem Fall vor der Aufgabe, dass sie die unstrukturierten Daten, einschließlich Kontext und Inhalt, möglichst effizient speichern müssen, damit sie später im Falle eines Falles mit einem überschaubaren Aufwand wieder zu finden sind. Der bislang vorherrschende Ansatz besteht darin, die Daten mit dem Dateisystem einer NAS-Lösung zu speichern. Dafür sind NAS-Lösungen jedoch nicht gedacht, denn sie stammen aus einer Zeit, als die strukturierten Datenbestände klar dominierten.

Dateisysteme ermöglichen Lese- und Schreibvorgänge, die über ausgeklügelte Benutzerrechte und Möglichkeiten zum Sperren von Dateien gesteuert werden. Diese Funktionsvielfalt wird nur selten für unstrukturierte Daten benötigt und verursacht unnötige Kosten und Komplexität.

Das gilt insbesondere dann, wenn es der Inhalt und der Kontext von unstrukturierten Daten erfordern, dass diese Angaben – die Daten selbst sowie die zugehörigen beschreibenden Metadaten zu Kontext und Inhalt – getrennt voneinander auf einem Sekundär- oder Archivmedium gespeichert werden müssen.

Denn nur durch Kontext und Inhalt lassen sich unstrukturierte Daten sinnvoll einsetzen. Um beispielsweise den Inhalt eines Vertrages oder einer E-Mail zu verstehen, ist es wichtig, sie anhand ihres geschäftlichen Kontexts zu identifizieren und zu interpretieren. Es muss klar sein, ob darin Kunden, Produkte, Partner, Technologien oder andere geschäftlich relevante Kategorien erwähnt sind.

Darüber hinaus speichern File-Systeme die Daten in hierarchischen Baum-Strukturen (Verzeichnisse, Ordner, Unterordner und Dateien). Ziel eines File-Systems ist es, den Speicherort der Daten als logische Sequenz verschachtelter Ordner zu verwalten. Der eigentliche Inhalt und der Kontext der Daten sind – im Vergleich zu unstrukturierten Daten – nachrangig.

Strukturierte Daten benötigen nur wenige Metainformationen. Der Blick in ein File Directory liefert lediglich Angaben zum Namen der Datei, wann sie von wem angelegt und zum letzten Mal geändert wurde sowie zum Dateityp. File-Systeme eignen sich daher nicht für die Verwaltung unstrukturierter Daten.

Objektorientierte Datenspeicherung

Bei der objektorientierten Datenspeicherung, wie sie etwa die Dell-DX-Object-Storage-Plattform bietet, werden die Daten gemeinsam mit umfangreichen Metainformationen abgelegt, damit sowohl der Kontext als auch der Inhalt der Daten erhalten bleiben. Der Unterschied zwischen einem traditionellen File-System und der objektorientierten Speicherung lässt sich sehr gut am Beispiel einer MRT-Aufnahme (Magnetresonanztomografie) erläutern.

Wird eine MRT-Aufnahme als File gespeichert, sind dazu nur die grundlegenden Metainformationen wie Dateiname, Autor und Dateityp vorhanden. Wird die MRT-Aufnahme dagegen als Objekt gespeichert, ist es möglich, am gleichen Ort umfangreiche Metainformationen abzulegen, wie Name des Patienten, Patienten-ID, Datum der Aufnahme, anwesender Arzt, Notizen des Arztes sowie weitere Metadaten.

All diese Informationen helfen dem medizinischen Fachpersonal, die MRT-Aufnahme effizient zu speichern und sie später mit unterschiedlichen Suchbegriffen wieder finden zu können – ohne, dass der Dateiname bekannt ist. Zusätzlich lassen sich die Metadaten mit Regeln für ein automatisches Speicher-Management, die Weiterleitung, die Aufbewahrung oder sogar die endgültige Löschung verbinden.

Verlässt der Patient beispielsweise das Krankenhaus, wird das MRT-Objekt im Archiv abgelegt. Kommt der Patient zu einem späteren Zeitpunkt wieder, sorgt intelligentes Datenmanagement automatisch dafür, dass das MRT-Objekt auf ein schnell zugängliches Speichermedium (Nearline Storage) verlagert wird.

Die umfangreichen Metainformationen ermöglichen zudem den Einsatz leistungsfähiger Such- und Business-Intelligence-Tools. Damit lassen sich beispielsweise alle MRT-Aufnahmen, die in einem Krankenhaus in den letzten Jahren entstanden sind, suchen und analysieren, um daraus Erkenntnisse für den Erfolg bestimmter medikamentöser oder anderer Behandlungsverfahren zu gewinnen.

Darüber hinaus können die MRT-Aufnahmen mit anderen Daten, etwa den im MP3-Format aufgezeichneten Notizen der Ärzte oder eingescannten Unterlagen zur Krankenhistorie des Patienten, kombiniert werden. Das entspricht der bislang vielfach noch vorhandenen Krankenakte auf Papier, wobei die digitale Version deutlich schneller und einfacher nach wichtigen Informationen durchsucht werden kann. Damit lässt sich der Nutzwert von MRT-Objekten deutlich steigern.

Im Unterschied zu einer Datei in einem File-System enthält das Objekt eine eindeutige ID. Damit lassen sich Objekte in einem nahezu unbeschränkten flachen Adressraum speichern, der Millionen von Objekten enthält – ohne die von File-Systemen her bekannte Komplexität, wenn sehr große Mengen von Dateien gespeichert werden.

Die Objekt-ID funktioniert ähnlich wie eine URL, sie verweist auf das Objekt. Um das Objekt zu finden, werden anders als bei einem File-System keine Directory-Hierarchie oder der genaue Speicherort benötigt. Der genaue Speicherort muss bei Verwendung der Objekt-ID nicht bekannt sein – das Suchen und Finden funktioniert sogar dann, wenn das Objekt von einem zu einem anderen Speicherknoten verschoben wird.

Zusätzlich zu einer eindeutigen ID lässt sich eine Hash-Signatur für jeden Teil des Inhalts eines Objekts verwenden. Diese Hash-Signatur ermöglicht es, doppelt vorhandene Objekte aufzuspüren und zu entfernen sowie die Authentizität eines Objekts zu überprüfen. Authentizität ist überall dort gefordert, wo es um die Einhaltung von Compliance-Anforderungen geht, etwa bei der revisionssicheren Archivierung steuerrelevanter digitaler Unterlagen. Objektorientierte Speicherlösungen wie die Dell-DX-Object-Storage-Plattform helfen bei der Einhaltung der gesetzlichen Bestimmungen.

Koexistenz objektorientierter Speicherung und NAS

Die objektorientierte Speicherung eignet sich am besten für Einsatzgebiete, bei denen eine große Menge unstrukturierter Daten ordnungsgemäß und leicht auffindbar abgelegt werden muss. In diesem Fall erweisen sich LUNs, Ordner und komplizierte Benutzerberechtigungen, wie sie von File-Systemen her bekannt sind, als ausgesprochen ineffizient. Die objektorientierte Speicherung ist ideal, um unstrukturierte Daten zu archivieren, die relativ statisch sind und nur selten benötigt werden.

Entwickelt ein Unternehmen beispielsweise aktuelle Marketingunterlagen – von Haus aus sind das eher unstrukturierte Daten – arbeiten daran mehrere Mitarbeiter, die bis zur endgültigen Fertigstellung immer wieder neue Versionen der Dokumente produzieren. Zur Dateiablage eignet sich dazu am besten eine NAS-Lösung, die eine hohe Performance und Verfügbarkeit bietet.

Ist der Prozess abgeschlossen und es steht die nächste große Revision an, werden die bisherigen Dokumente auf preisgünstigere Archivierungsmedien verlagert. Die Häufigkeit des Datenzugriffs ist damit ein wichtiges Entscheidungskriterium für den Einsatz von File-Systemen oder der objektorientierten Speicherung. Beide Varianten spielen zu unterschiedlichen Zeitpunkten jeweils eine wichtige Rolle im Rahmen eines unternehmensweiten, intelligenten Datenmanagements.

In der Vergangenheit haben viele Storage-Verantwortliche in den Unternehmen nach dem Motto gehandelt „alles wird für immer gespeichert“. Dies ist in Anbetracht der stetig steigenden Flut unstrukturierter Daten nicht mehr sinnvoll und machbar. Der Ansatz eines intelligenten Datenmanagements geht davon aus, strukturierte und unstrukturierte Daten automatisch auf die dafür am besten geeigneten Speichersysteme zu verschieben – unter Berücksichtigung des passenden Storage Tiering, der Anforderungen an die Datensicherung und den Datenschutz sowie dem Wert der Daten über deren gesamten Lebenszyklus.

Bei diesem Ansatz sind die hochperformanten und leistungsfähigsten Systeme für die „aktiven“ Daten reserviert. Weniger häufig genutzte Daten werden auf preisgünstigeren Sekundär-Arrays untergebracht. Die objektorientierte Speicherung unstrukturierter Daten, einschließlich umfangreicher Metainformationen, erfolgt nach den gleichen Prinzipien. Damit wird die objektorientierte Speicherung unstrukturierter Daten zum zentralen Bestandteil eines unternehmensweiten, intelligenten Datenmanagements.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

(ID:34308540)