Storage für große Datenmengen Eine Herausforderung für Speichersysteme: Big Data

Von Michael Matzer

Täglich schwillt die Flut an Informationen, die aus Mobilgeräten, dem Internet, dem Edge und den Transaktionssystemen in die firmeneigene IT-Infrastruktur fließen, immer weiter an. Eines der Kennzeichen von Big Data ist die Unstrukturiertheit der Daten, die Unberechenbarkeit des Umfangs und der Häufigkeit ihres Auftretens sowie die meist mangelhafte Datenqualität der verschiedenartigen Informationstypen.

Anbieter zum Thema

Die Datenflut ist eines der aktuell größten Storage-Probleme – wenn nicht die Herausforderung schlechthin.
Die Datenflut ist eines der aktuell größten Storage-Probleme – wenn nicht die Herausforderung schlechthin.
(Bild: © Konstantin Hermann - stock.adobe.com)

In den vergangenen sechs Jahren ist aufgrund dieser Herausforderung ein Paradigmenwechsel eingetreten, was die Art der Datenverarbeitung von Big Data sowie ihre Speicherung in Storage-Systemen betrifft. Relationale Datenbanksysteme (RDBMS) sind in vielen Bereichen von quelloffenen Datenbanksystemen im Graph- und Data-Lake-Bereich abgelöst worden. Streaming und In-Memory-Datenverarbeitung haben den Bedarf an Netz- und Hauptspeicherkapazität in die Höhe schnellen lassen.

Bildergalerie
Bildergalerie mit 7 Bildern

Den quelloffenen Datenbanksystemen et cetera ist eines gemeinsam: Sie arbeiten nach dem Scale-Out-Prinzip: Ein Rechner oder Storage-System wird neben das andere gestellt, insbesondere in der Cloud. Das ist zwar nicht sonderlich effizient, aber es deckt einerseits den rasch wachsenden Bedarf, und andererseits ist dieses Prinzip sehr flexibel. Was nicht mehr gebraucht wird, wird abgeschaltet. Die Architektureinheit, die sich für Big Data anbietet, ist der Data Lake.

Die Frage stellte sich bislang, ob die vorhandenen Systeme, etwa im Storage-Bereich, noch zu vertretbaren Kosten erweitert werden können oder ob die nötigen Kapazitäten nicht günstiger bei einem Cloud-Dienstleister zu mieten sind. Schließlich gehört der Betrieb einer IT-Infrastruktur nicht gerade zum Kerngeschäft eines Unternehmens. Diese Frage hat der Kunde längst entschieden: Er will Cloud-Kapazitäten, und zwar schnell, aber auch zu einem vertretbaren Preis. Der langfristige Trend zeigt: Die Kunden wollen das Beste aus beiden Welten, und das ist die Hybrid- oder Multi-Cloud.

Die Hybrid-Cloud erfordert eine neue Ebene von Management: Die Storage-Verwaltung muss Zugriff auf sowohl Online- als auch Offline-Ressourcen haben und beide Ebenen Leistungs- und Workload-optimiert verwalten und bereitstellen. Diese Anforderung erzeugt einen erhöhten Anspruch an die „Intelligenz“ solcher Systeme. Tatsächlich verwenden die Hersteller nicht selten bereits KI-gestützte Algorithmen, um diesen Anspruch erfüllen zu können.

Herausforderungen durch Big Data

Big Data werden, wie erwähnt, zunehmend in Data Lakes gespeichert. Dafür gibt es erstens quelloffene Software wie Hadoop und Spark, aber auch kostengünstige Subskriptionen wie AWS S3. Es genügt jedoch nicht, einfach die eintreffenden Datenströme in den Data Lake zu kippen: Dann würde daraus schnell ein „Data Swamp“. Vielmehr muss der Data Lake automatisiert bewirtschaftet werden, um einen Mehrwert zur analytischen Wertschöpfung beitragen zu können. Erfolgt dies nicht, wird aus dem „Kapital“ Data Lake in kürzester Zeit ein Verlustposten. Denn wie alle Speichereinheiten gibt es auch die für den Data Lake nötigen Storage-Kapazitäten nicht zum Nulltarif.

Immer dort, wo sehr viele verschiedenartige Informationen in großer Menge anfallen, die es auszuwerten gilt, reüssieren automatisierte Werkzeuge für Big Data Analytics (BDA). Solche Lösungen verfügen über die Filter und Konverter, um aus diesen Big Data verwertbare Informationen zu erzeugen, die Wert liefern. Die Konverter, Adapter und so weiter sind nötig, um aus polystrukturierten Daten, die aus Texten, Audio- und Video-Files, Sensoren oder Logfiles kommen, verwertbare strukturierte Informationen zu generieren.

Die Storage-Infrastruktur

Solche Systeme, die On-Premises zunehmend auf Hadoop- oder Spark-Clustern beruhen, müssen angesichts des Datenvolumens über eine Hochleistungsspeicherinfrastruktur verfügen, also Storage mit großer Speicherkapazität. Dies waren bislang entweder lokal RAID-Plattensysteme für aktuelle und junge Daten oder Tape-Bibliotheken für alte und Archivdaten. Die Verwaltung ist jedoch aufwändig und erfordert häufig geschultes Personal mit Spezialwissen. Die industriell arbeitenden Hyperscaler bewältigen beide Herausforderungen, und das macht sie für immer mehr Unternehmen attraktiv. Bei ihren Partnern findet der Interessent das Spezialwissen, mit dem sich die Anbieter profilieren.

Need for Speed

Zunehmend erhält auch der Faktor „Speed“ Priorität. Wenn etwa ein Algorithmus, mit dessen Hilfe die Bewertung einer Kapitalanlage erfolgen soll, weniger als 24 Stunden Rechenzeit benötigt, dann ist das bereits ein erheblicher Wettbewerbsvorteil für die Rating-Agentur. Wenn sich die 24 Stunden auf 24 Minuten oder gar 24 Sekunden reduzieren lassen, so vervielfacht sich der monetäre Vorteil. Auch die Vorhersage von Ereignissen und Trends (Predictive Maintenance, Forecasting und so weiter) entwickelt sich zum Erfolgsfaktor – und zu einer Grundlage für neue Geschäftsmodelle. Viele davon werden Richtung Premium-Services entwickelt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Um „Speed“ zu erreichen, sind sehr schnelle Storage-Systeme von Vorteil, etwa All-Flash-Arrays. Da diese derzeit noch mehr kosten als herkömmliche RAID-Plattensysteme, bietet es sich an, sie beim Cloud-Anbieter zu mieten. Der Trend fallender Preise für Flash-Memory begünstigt indes den firmeneigenen Einsatz zunehmend, weshalb auch immer leistungsfähigere Flash-Memory-Komponenten in Gebrauch sind. Bei SSDs sind QLC-Bausteine die Regel, als Protokoll für den Datentransfer ist NVMe mittlerweile der Standard. All diese Ressourcen lassen sich auch bei Cloud-Providern buchen.

Verfahren und Technologien

Big Data und HPC/KI sind lediglich zwei Arten von Workloads, mit denen Storage-Systeme zurechtkommen müssen. Der Interessent fragt sich: Wie sollte die Storage-Infrastruktur aussehen, die es erlaubt, Volumina im Petabyte-Bereich effizient zu speichern und zu verwalten?

Die Unternehmensberatung 451 Research hat in einer Umfrage („Automating Storage Tiers Can Drive Faster, Deeper Analytical Insight“) herausgefunden, dass „ein Schlüssel zum Verwalten und Aggregieren von Datenmengen in der richtigen Verwaltung von Storage-Ebenen liegt. 63 Prozent der auf unsere Umfrage Antwortenden wollen die Speichereffizienz erhöhen. Werden auch noch KI/ML-Workloads aufgenommen, dürfte die Speicherebene eine entscheidende Rolle in der IT-Umgebung spielen.“ Mit der „richtigen Verwaltung von Storage-Ebenen“ ist offenbar das optimale Tiering gemeint, mit dem sich die für die jeweilige Workload benötigten Daten vom jeweils optimalen Medium holen und bereitstellen lassen. Doch Big Data ist eine Workload-Kategorie für sich.

„Eine sinnvolle Storage-Infrastruktur für unstrukturierte Daten (Big Data) muss vor allem flexibel und skalierbar sein“, urteilen Tim Pfaelzer, Head of Sales, Unstructured Data Solutions, und Andreas Walzel, Senior Manager Systems Engineering, Unstructured Data Solutions, beide von Dell Technologies. „Die richtige Scale-Out-Architektur erlaubt es, die Infrastruktur unterbrechungsfrei von wenigen Terabytes bis in den Bereich der Exabytes zu skalieren. Je nach Bedarf können diese dabei um Knoten mit unterschiedlich ausgestatteten Compute-, Netzwerk- und Storage-Ressourcen flexibel ergänzt werden.“ Das würde den Einsatz von HCI-Appliances erlauben.

Bildergalerie
Bildergalerie mit 7 Bildern

„Ebenfalls wichtig ist ein möglichst einfaches Management und Monitoring. Zum Beispiel sollte die Kapazitätsverteilung automatisiert ablaufen, etwa mithilfe von Single-File-System, Namespace- und Policy-basierter Automatisierung. Management-Software wie Dell EMC DataIQ hilft dabei, die Verwaltung zu vereinfachen, und unterstützt dabei sowohl File- als auch objektbasierte Daten vom Edge über den Core bis in die Cloud.“

Weitere wichtige Anforderungen an eine Storage-Infrastruktur für unstrukturierte Daten sind ein Multi-Protokoll-Support und der Schutz der Daten vor ungewolltem oder mutwilligem Verlust, etwa durch lokale Snapshots, Remote-Replikation und Ransomware Protection.

„Grundsätzlich empfehlen wir Kunden von Dell Technologies einen Data-First-Ansatz, der die Daten als wertvollste Ressource in den Mittelpunkt stellt. Eine flexible und agile Hybrid-Cloud-Strategie unterstützt dabei verschiedene Cloud-Optionen, von On-Premises über Multi-Cloud bis hin zu Cloud-native.“ Dieser Dell-Ansatz berücksichtigt sowohl die skalierbare Skalierung im Passivmodus als auch die durch DataIQ optimierte Bereitstellung unstrukturierter Datenmengen. Über die in Kapitel 3 vorgestellten Dell-Lösungen deckt dieser Ansatz alle Datenmengen von wenigen Terabyte über Petabyte bis hin zu mehreren Exabyte ab.

Skalierbares Backup

Von Big Data müssen auch Sicherheitskopien angelegt werden, entweder als Replikat an einem entfernten Ort (Failover-Ansatz) oder als Snapshot. Die Skalierung einer Lösung ist eine der schwierigsten Herausforderungen, die es gibt. Alles wird bei der Skalierung schwieriger – und die Skalierung des Backup-Betriebs ist eine dieser Herausforderungen, die Gartner in seinem aufschlussreichen Beitrag „5 Key Challenges You Must Solve with Your Next Backup Platform“ definiert hat.

Als langjähriger Player im Bereich Data Management sieht Pure Storage, wie immer mehr Unternehmen versuchen, dieses Problem nachhaltig anzugehen. Nichts stresst die Backup-Umgebung mehr als Wachstum, und das gilt für alles: Hardware, Software und vor allem den Betrieb. Angenommen, ein Unternehmen müsste 500 Server pro Tag sichern, eine Mischung aus physischen Servern und VMs. Es ist eine ziemlich schwierige Aufgabe, das gesamte Auftragsmanagement im Griff zu behalten. Außerdem gilt es sicherzustellen, dass die Kapazität und Leistung verfügbar ist, um die Arbeitslast innerhalb des Backup-Fensters zu bewältigen. 500 Server entsprechen einer ziemlich großen Umgebung, einige Unternehmen haben auch 5.000 Server oder sogar mehr. Wie würde sich diese zehnfache Skalierung auswirken?

Allein das Job-Management dürfte verrücktspielen. Wird ein Backup-Job pro Minute gestartet, würde es über 83 Stunden dauern, nur um 5.000 Backups zu starten. Das entspricht nicht den Service Level Agreements (SLAs) irgendeines Unternehmens. Müssen viele Jobs gleichzeitig gestartet und ausgeführt werden, kann dies zu massiven Performance-Herausforderungen durch Netzwerk- und Speichersättigung führen.

Ein weiteres Problem ist die Fehlersuche. Angenommen, es sind bei 500 Backups sechs Backup-Fehler pro Nacht zu beheben. Multipliziert mit zehn, sind jetzt 60 Backup-Ausfälle zu beheben, vielleicht sogar mehr, da die Skalierung selbst zu höheren Ausfallraten führen kann. Ein Unternehmen wird aber nicht die zehnfache Anzahl an Mitarbeitern zur Verfügung haben, um dies zu bewältigen.

Das ist der Grund, warum es die herkömmlichen Backup-Produkte immer noch gibt und sie weit verbreitet sind. Die Namen sind bekannt: Veritas NetBackup, Commvault, IBM Spectrum Protect und ein paar andere. Unternehmen haben herausgefunden, wie diese Produkte skalieren und wie viele Tausende von Nodes sie sichern können. Neue Produkte werden wahrscheinlich nicht in der Lage sein, die gleiche Skalierung auf Jahre hinaus zu erreichen. Das heißt aber nicht, dass sie nicht auch in einer massiven Backup-Umgebung als Spitzenprodukte nützlich sein können.

Hardware-Aspekte

Auch die Hardware stellt eine Herausforderung dar. Unabhängig davon, ob eine selbst entwickelte Lösung (Medienserver plus Festplatte) oder eine speziell entwickelte Backup-Appliance zum Einsatz kommt, haben Unternehmen wahrscheinlich schon einmal die Herausforderung der Skalierung erlebt. Allein das Wort „Forklift-Upgrade“ neben einem Backup-Administrator zu erwähnen, kann für einige böse Blicke sorgen, aber viele hatten nie eine andere Wahl. Der Austausch von Backup-Hardware bedeutet in der Regel, dass Backup-Jobs neu konfiguriert werden müssen, um das oder die neuen Backup-Ziele zu verwenden.

Die Skalierung ist etwas, bei dem All-Flash-Speicher helfen kann. Die moderne Lösung skaliert sowohl Kapazität als auch Rechenleistung einfach durch Hinzufügen von Blades. Alle Upgrades und Erweiterungen sind unterbrechungsfrei, selbst größere Updates der Produktgeneration. Kapazitätserweiterungen erfolgen nahtlos, wenn das Wachstum der Backup-Daten mehr Kapazität erfordert. Systeme wie Pure FlashBlade bieten außerdem eine hohe Leistung und Backup-Bandbreite, so dass sich mehr Backup-Aufträge zusammen ausführen lassen. So kann man zudem die Datenwiederherstellungszeit erheblich verbessern. Einer der Schlüssel für die Bewältigung einer erhöhten Skalierung ist es, die Komplexität so weit wie möglich zu reduzieren, nach dem Motto „Simple is smart“.

Storage-Alternativen für Backup

Große Unternehmen verwalten schon seit langem riesige Backup-Umgebungen, aber es gibt auch kleinere, schnell wachsende Unternehmen, die das Thema Skalierung auf die harte Tour lernen. Deren Backup-Plattformen brechen unter dem Stress des ständigen Wachstums zusammen. Die Frage lautet, wie sich der Druck vermindern lässt, ohne die Backup-Produkte zu wechseln?

Unternehmen sollten alternative Datensicherungsmethoden in Betracht ziehen. Nicht alles muss mit Backups gesichert werden. Für einige Workloads können Unternehmen zu einem speicherbasierten Ansatz wechseln und eine Kombination aus Snapshots und Replikation verwenden. Dies ist effektiv für die transaktionsintensivsten oder größten Workloads, denn Snap-and-Replicate ist viel effizienter als ein Backup, zumindest wenn man modernen All-Flash-Speicher verwendet. Unternehmen haben mit Snap-and-Replication bei anderen Speicheranbietern vielleicht schlechte Erfahrungen gemacht. Es ist üblich, dass die Performance mit steigender Snapshot-Anzahl abnimmt. Administratoren haben mit komplexem Management und lästigen Speicherplatzreservierungen zu kämpfen. Und dann sind da noch die zusätzlichen Lizenzgebühren.

Eine Storage-only-Sicherung erfordert immer noch eine Lösung für die langfristige Datenaufbewahrung. Hier können Unternehmen ihre Backup-Software nutzen, um periodische (wöchentliche, monatliche) Backups auf Band zu erstellen. Software-Lösungen wie Veeam und Commvault können Snapshots als Backup-Quellen nutzen und so die Auswirkungen auf den Host eliminieren; das ist ein großer Vorteil, aber ein anderes Thema.

Wenn Unternehmen kein Tape verwenden möchten, bietet Pure eine native Cloud-Integration und die Möglichkeit, Snapshots in die Cloud zu kopieren. Da die Snapshots portabel sind, lassen sie sich auf jedem Pure FlashArray wiederherstellen, nicht nur auf der Quelle. Das sind nicht die Snapshots von früher.

Indem Unternehmen ihre anspruchsvollsten Workloads vom Backup auf Snap-and-Replicate verlagern, entlasten sie ihre gesamte Backup-Umgebung unverhältnismäßig stark. Nicht alle Backups sind gleich, und es ist sinnvoll, die Technologie zu verwenden, die für eine Arbeitslast am besten geeignet ist: „Data first“.

Wer zögert, hat das Nachsehen

Der letzte Rat von Pure Storage zu diesem Thema lautet: „Nicht warten, bis ein Problem auftaucht!“ Wenn ihre Backup-Umgebung wächst, sollten Unternehmen rechtzeitig Schritte unternehmen, um ein potenzielles Problem abzuwenden. Denn wenn sie den Kipppunkt erreichen, wird es ein viel größeres Chaos geben, als vielleicht gedacht. Die Skalierung ist nicht die einzige Herausforderung für Backup-Umgebungen, aber je besser und früher Unternehmen darüber informiert sind, desto besser können sie vorausplanen.

Bildergalerie
Bildergalerie mit 7 Bildern

(ID:47895127)