Die geeignete Storage-Infrastruktur für den smarten Einsatz von Daten Unstrukturierte Daten speichern und nutzen

Autor / Redakteur: Tim Pfaelzer und Andreas Walzel* / Dr. Jürgen Ehneß

Intelligente Datenanalysen geben Firmen wertvolle Einblicke in Trends, Märkte, Kundenzufriedenheit und Geschäftsentwicklung. Die weit verbreiteten unstrukturierten Daten aus IoT-, AI- und Industrie-4.0-Anwendungen sowie den sozialen Medien stellen jedoch ganz besondere Anforderungen an die zugrundeliegende Storage-Infrastruktur.

Firmen zum Thema

Fürs Jahr 2023 wird ein Datenaufkommen im Internet der Dinge von rund elf Zettabyte prognostiziert.
Fürs Jahr 2023 wird ein Datenaufkommen im Internet der Dinge von rund elf Zettabyte prognostiziert.
(Bild: gemeinfrei / Pixabay )

Die Art und Weise, wie Unternehmen Daten sammeln, speichern, analysieren und nutzen, wird ihre Geschäftsentwicklung über die kommenden fünf bis zehn Jahre maßgeblich bestimmen. Schon seit Längerem ist die Rede vom Datenschatz, den es zu heben gilt – vom Datenkapital, das klug investiert werden will, um den unternehmerischen Erfolg zu sichern und auszubauen. Zwei Herausforderungen kommen dabei auf die Unternehmen zu: Die Datenvolumina wachsen. Weltweit wurden nach Schätzungen von Marktbeobachtern bereits 2019 über 40 Zettabyte an Daten generiert, also 40 Milliarden Terabytes, und die Zahl steigt Jahr für Jahr weiter. Dementsprechend steigt der Bedarf an hochvolumigen, performanten und kostengünstigen Speicherkapazitäten.

Herausforderung Nummer zwei: 80 Prozent der Daten lassen sich nicht in ein fixes, klar definiertes Schema pressen. Sie sind unstrukturiert und stammen etwa aus der produzierenden Industrie, den sozialen Medien oder aus Mailing-Diensten. Allein die Sensoren des Internets der Dinge (IoT) werden im Jahr 2023 Daten im Umfang von rund 11 Zettabyte generieren, was dem Streaming von 3,6 Milliarden Stunden – oder 411 Millionen Jahren – an hochauflösenden Videos auf Netflix entspricht.

Beide Herausforderungen werden sich in den nächsten Jahren immer stärker überschneiden. Der Löwenanteil der unstrukturierten Daten gehorcht dabei anderen Gesetzmäßigkeiten als die alte Welt der strukturierten Daten. Ein wichtiger Unterschied: Unstrukturierte Daten werden in File- oder Object-Storage-Systemen organisiert. Ein Objekt wie ein Foto, ein Dokument oder ein Video wird durch eine eindeutige Objekt-ID und durch Metadaten ergänzt, die relevante Hinweise für die Suche geben. Dabei kommen die Primärprotokolle S3, SWIFT und HTTP zum Einsatz. Mehrere Objekte lassen sich zwar klassifizieren und zu Kollektionen, sogenannten Buckets, zusammenfassen. Im Großen und Ganzen sind Objektspeicher jedoch, im Gegensatz zu File-Speichern, hierarchielos aufgebaut. Das speicherbare Datenvolumen skaliert von einigen Petabyte hoch bis zu einem Exabyte.

Object- und File-Speichersysteme, die unstrukturierte Daten vorhalten, stellen andere Anforderungen an die zugrundeliegende Infrastruktur als die verbreiteten relationalen Datenbanken. Unternehmen, die ihre Wettbewerbsfähigkeit erhalten und stärken wollen, kommen an den neuen Datenspeichern aber nicht vorbei. Drei Beispiele für die Bedeutung unstrukturierter Daten:

  • Sensoren übernehmen in der Industrie qualitätssichernde Funktionen oder schlagen Alarm, wenn Komponenten der Produktionsmaschinen auszufallen drohen (predictive maintenance). Sie verringern Ausfallzeiten, erhöhen die Effizienz des Produktionsprozesses und die Qualität der hergestellten Produkte.
  • Soziale Medien geben Vertriebs- und Marketingabteilungen wichtige Hinweise, wie es um die Sichtbarkeit ihres Brands bestellt ist und wie zufrieden die Kunden mit ihren Lösungen sind. In den sozialen Medien nehmen die Kunden kein Blatt vor den Mund und reden Klartext. Gerade deshalb sind sie eine wichtige, relevante Informationsquelle.
  • Im Gesundheitswesen übernehmen Advanced Analytics und High-Performance-Computing diagnoseunterstützende Aufgaben. Sie evaluieren in wenigen Sekunden tausende von Patientenakten und schlagen für einen bestimmten Patienten auf Grundlage der Behandlungshistorien und individueller Gesundheits-KPIs diejenigen Therapien vor, die mit hoher Wahrscheinlichkeit Erfolg versprechen.

In all diesen Use-Cases müssen unstrukturierte Daten gespeichert, vorselektiert und performant ausgewertet werden.

Bei Cloud Storage genau hinsehen

Viele Unternehmen beziehen zumindest einige Anwendungen aus der Cloud oder fahren eine Multi-Cloud-Strategie, halten aber einige als Business-kritisch klassifizierte Daten aus Compliance- und Performance-Gründen immer noch On-Premises auf den eigenen Speichern vor. Generell ist es nicht allzu aufwendig, Daten in die Cloud zu transferieren und dort aufzubewahren. Insbesondere für die Langzeitaufbewahrung und für Backups bietet sich die Cloud an – unter der Voraussetzung, dass die Netzanbindung ausreichend performant ist. Wenn die in der Cloud gespeicherten Daten aber zum Arbeiten benötigt und oft geändert und ergänzt werden müssen, was häufige Up- und Downloads erfordert, wird die Nutzung der Cloud zu einem teuren Geschäft.

Kostenintensiv kann es auch in anderen Fällen werden, weshalb die Cloud nicht immer und in jedem Fall die preiswertere Lösung ist. Es empfiehlt sich daher, die Limitierungen der Cloud-Anbieter hinsichtlich Kapazität und Performance genau mit den eigenen Anforderungen abzugleichen. Einige Cloud-Provider offerieren zum Beispiel File-System-Kapazitäten in 100-Terabyte-Schritten. Der Betrieb von Anwendungen im Petabyte-Bereich rechnet sich dann auch durch die sich ergebende Komplexität in der Regel nicht: Eine On-Premises gehaltene Speicher-Appliance wäre die kostengünstigere Lösung, die zudem Performance-SLAs garantiert einhält.

Fallen unstrukturierte Daten bei Industrie-4.0- oder IoT-Anwendungen am Netzwerkrand an, ist es zweckmäßiger, die Daten mithilfe kleiner Einstiegslösungen wie Edge-Gateways direkt vor Ort zu sammeln und zu selektieren und nur die relevanten Daten ins eigene Kernrechenzentrum oder in die Cloud zu transferieren. Moderne IoT-, Artificial-Intelligence-, Machine-Learning- und Analytics-Anwendungen erfordern aus Performance- und Latenzzeitgründen eine direkte Verarbeitung vor Ort. Hyperkonvergente Infrastrukturen, die flexible Scale-Out-Rechenleistung vor Ort bereitstellen und sich nahtlos in die Infrastruktur eines Public-Cloud-Anbieters integrieren, garantieren für Edge-Computing-Anwendungsszenarien sicher und zuverlässig die gewünschte Leistung.

Optimale Speichersysteme unterstützen die gesamte Wertschöpfungskette

Die optimale Speicherinfrastruktur für unstrukturierte Daten sieht je nach Anwendungsszenario ein wenig anders aus. In vielen Fällen läuft es, um alle Anforderungen bestmöglich abzudecken, auf eine flexible hybride Strategie hinaus, die sich kurzfristig an aktuelle Anforderungen anpasst. Container, Kubernetes und die Automatisierungs-Appliance Ansible sorgen für die nötige Flexibilität. Am Anfang steht eine Klassifikation der eigenen Daten nach Datenquellen, Nutzungsmustern und Zugriffsraten. Das Ziel besteht darin, unstrukturierte Daten aus klassischen Anwendungsszenarien wie Backup und Archivierung und aus modernen Applikationen wie IoT, Analytics, Artificial Intelligence, Machine Learning, Streaming und DevOps über die gesamte Wertschöpfungskette – vom Netzwerkrand über das Kernrechenzentrum bis zur Cloud – so zu nutzen, dass sie die Geschäftsziele des Unternehmens optimal unterstützen.

*Die Autoren: Tim Pfaelzer ist Head of Sales Unstructured Data Solutions bei Dell Technologies Deutschland, Andreas Walzel ist Senior Manager Systems Engineering Unstructured Data Solutions bei Dell Technologies Deutschland.

(ID:47059567)