Mobile-Menu

Unstrukturierte Daten effizient speichern und sinnvoll nutzen – Teil 1 Sammelbecken für die Datenflut

Ein Gastbeitrag von Dennis Scheutzel*

Anbieter zum Thema

Die Digitalisierung lässt die Datenmengen in Unternehmen immer schneller wachsen. Das birgt für Unternehmen immense Herausforderungen, denn der größte Teil dieser Datenflut besteht aus unstrukturierten Daten und kann nicht mit den gewohnten Datenbanken und Blockspeichersystemen aufgefangen werden. Zum Auftakt dieser Serie über die effiziente Speicherung und sinnvolle Nutzung der neuen Datenschätze geht es um die sich wandelnden Storage-Anforderungen.

Auf viele Unternehmen rollt eine große Welle unstrukturierter Daten zu, wodurch sich die Anforderungen an Storage-Umgebungen deutlich verändern.(Bild:  gemeinfrei /  Pixabay)
Auf viele Unternehmen rollt eine große Welle unstrukturierter Daten zu, wodurch sich die Anforderungen an Storage-Umgebungen deutlich verändern.
(Bild: gemeinfrei / Pixabay)

Ein Ende des rasanten Datenwachstums in den Unternehmen ist angesichts der zügig voranschreitenden Digitalisierung nicht in Sicht. Im Gegenteil: Das Tempo, in dem Menschen, Maschinen und Anwendungen neue Daten generieren, nimmt sogar noch zu. Wachstumstreiber sind unter anderem die vielen IoT-Sensoren, die beispielsweise in der vernetzten Produktion oder im autonomen Fahrzeug teilweise mehrere Datenpunkte pro Sekunde erstellen. Dazu kommen immer mehr und höher aufgelöste Bilder und Videos in sozialen Netzwerken, der Medizin und der Videoüberwachung sowie riesige Datenmengen in der Forschung, etwa bei der Genom-Sequenzierung oder bei Wettersimulationen. All das lässt sich ebenso wenig wie der Großteil der von Büroangestellten im durchdigitalisierten Arbeitsalltag produzierten Daten in Datenbanken pressen, sondern wird einfach in file- oder objektbasierten Speichern abgelegt – willkommen in der Welt der unstrukturierten Daten.

Datenmengen im Petabyte-Bereich

Studien zufolge machen unstrukturierte Daten bereits 80 Prozent aller Daten weltweit aus („IDC Market Forecast: Worldwide File and Object-Based Storage Forecast, 2019-2023“, 2019) – Tendenz steigend, da ihre Menge dreimal so schnell zulegt wie die der strukturierten Daten (Gartner, „Market Guide for File Analysis Software“, 2018). Mit ein paar Windows-Servern als Heimat für einige File-Shares ist es da nicht mehr getan. Gefragt sind vielmehr leistungsstärkere und flexiblere Storage-Systeme und Storage-Plattformen.

Diese müssen extrem gut skalieren, da es oft um Datenmengen im Petabyte-Bereich geht, die zum Beispiel in einem großen Data Lake vereint und ausgewertet werden sollen. Denn erst die kontinuierliche Analyse ihrer Datenschätze erlaubt es Unternehmen, Abläufe zu automatisieren und zu optimieren, Entscheidungen datenbasiert und nicht mehr nach Bauchgefühl zu fällen sowie neue Produkte, Services und sogar Geschäftsmodelle zu entwickeln.

Wo es Unternehmen früher vor allem darum ging, Daten möglichst kostengünstig abzulegen, steht deshalb heute häufig die Performance im Vordergrund. Besonders hohe Anforderungen an die Storage-Systeme stellen diesbezüglich Echtzeitanalysen, beispielsweise in der Fertigung, weil bereits kleinste Verzögerungen bei der Reaktion auf Störungen zu einem Stillstand der Anlagen und einem Produktionsausfall führen können. Allerdings sind auch die Performance-Anforderungen nicht zeitkritischer Anwendungen oft überraschend hoch, allein schon aufgrund der enormen Datenmengen. Wenn regelmäßig mehrere Terabyte für Auswertungen oder das Training von Machine-Learning-Algorithmen geladen werden müssen, können leicht lange Wartezeiten entstehen, die für Frust auf Anwenderseite sorgen.

Storage-Systeme brauchen Intelligenz

Natürlich stellt nicht jeder Anwendungsfall gleichermaßen hohe Performance-Anforderungen, weshalb moderne Storage-Systeme oft hybride Arrays mit Flash-Speichern und Festplatten sind. Smarte Plattformen analysieren alle Zugriffe, um Daten in Hot, Warm und Cold Data einzuteilen und vorausschauend auf die jeweils am besten geeigneten Speicherklassen zu verlagern. Auf diese Weise lässt sich eine hohe Kosteneffizienz erreichen, ohne dass die Performance darunter leidet. Nur in Bereichen, in denen extreme Geschwindigkeiten bei der Datenbereitstellung erforderlich sind, etwa beim Streaming oder im Hochfrequenzhandel an Börsen, kommt All-Flash zu Einsatz.

Intelligenz benötigen die Systeme indes nicht nur für die Klassifizierung von Daten. Zu ihren Aufgaben zählt es auch, die Verteilung der Daten über unzählige Nodes und Racks zu überwachen und Kapazitäts- sowie Leistungsengpässe frühzeitig zu erkennen. Sie helfen bei der Planung künftiger Kapazitäten, der Optimierung der Performance und der Suche nach den Verursachern von Last-Peaks. Ebenso warnen sie beim drohenden Ausfall von Hardware-Komponenten, sodass Unternehmen diese rechtzeitig austauschen und ungeplante Downtimes verhindern können.

Multiprotokoll-Support vereinfacht das Datenmanagement

Typische Protokolle für den Zugriff auf unstrukturierte Daten sind SMB und NFS, doch eine breitere Protokollunterstützung der Storage-Systeme ist vorteilhaft: Einerseits lassen sich Daten dann leichter für verschiedene Anwendungen bereitstellen, die teilweise nach spezifischen Protokollen oder Schnittstellen verlangen. Unterstützt ein Storage-System diese nicht, müssen Daten zusätzlich auf einem anderen System vorgehalten werden, was die Speicherkosten und den Administrationsaufwand erhöht. Andererseits lässt sich eine integrationsfreudige Storage-Umgebung einfach an die Cloud anbinden, um Daten bei spezialisierten Cloud-Services zu analysieren, außer Haus zu sichern oder auszulagern, wenn die Kapazitäten On-Premises erschöpft sind. Als Standard für die Cloud-Anbindung hat sich S3 etabliert.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Mit Storage-Systemen, die Protokolle und Schnittstellen für viele Anwendungsfälle unterstützen, etwa für Hadoop-Anwendungen, bleiben Unternehmen flexibel. Idealerweise sind die Systeme für die jeweiligen Protokolle optimiert, damit diese reibungslos parallel genutzt werden können und sich nicht gegenseitig ausbremsen.

Dennis Scheutzel, Director Germany Unstructured Data Solutions and Analytics bei Dell Technologies.(Bild:  Dell Technologies)
Dennis Scheutzel, Director Germany Unstructured Data Solutions and Analytics bei Dell Technologies.
(Bild: Dell Technologies)

*Der Autor: Dennis Scheutzel ist Director Germany Unstructured Data Solutions and Analytics bei Dell Technologies

Aktuelles eBook

Speichertechnologien im Vergleich

HDD, Flash & Hybrid: Der passende Speicher für jeden Einsatz

eBook HDD, Flash und Hybrid
eBook „HDD, Flash & Hybrid“
(Bild: Storage-Insider)

In diesem eBook lesen Sie, welche verschiedenen Speicher es gibt und welche Vor- und Nachteile diese haben.

Die Themen im Überblick:

  • Der passende Speicher für jeden Einsatz – HDD, SSD und Tape
  • HDDs: Heimvorteil und neue Technologien
  • Flash-SSDs & Co.: wie ein geölter Blitz
  • Storage-Arrays unter die Haube geschaut – SSD, HDD und Hybrid
  • Tape: die Kunst der Langzeitarchivierung

(ID:48712845)