Suchen

Wachsende Datenmengen speichern Storage für Container, Hybrid-Cloud und KI

| Autor: Klaus Länger

Mit den Anwendungen ändern sich die Anforderungen an Storage und Datenmanagement. Hybrid-Cloud-Unterstützung ist inzwischen Usus, dazu kommen Storage-Lösungen für ­Container und Kubernetes. Ein wachsendes Geschäft sind Storage-Systeme für KI-Workloads.

Firmen zum Thema

Mit der Containerisierung der IT entstehen neue Anforderungen an die Storage-Landschaft in den Unternehmen.
Mit der Containerisierung der IT entstehen neue Anforderungen an die Storage-Landschaft in den Unternehmen.
(Bild: Igor Groshev - stock.adobe.com)

Dass der Datenbestand bei Firmen und ­Institutionen durch die zunehmende Digitalisierung weiterhin rasant wächst, ist inzwischen eine Binsenweisheit. In der Industrie generieren moderne Produktionsverfahren mit ihren Myriaden von Sensoren und Messpunkten enorme ­Datenmengen, die gespeichert und analysiert werden müssen. Auch in der Verwaltung, dem Gesundheitswesen, im ­Retail- und im Dienstleistungssektor steigt der Speicherbedarf. Dabei geht es nicht nur darum, die Daten nur einfach abzulegen, sondern sie sollen im ständigen Zugriff bleiben, um sie analysieren und monetarisieren zu können.

Ein erheblicher Teil der Datenflut ergießt sich zwar in die Rechenzentren der Cloud Provider, aber in vielen Firmen und noch mehr im öffentlichen Sektor gibt es Vorbehalte gegen die Public Cloud. Ein Grund sind Bedenken hinsichtlich Sicherheit und Compliance, ein anderer, dass die Kosten vor allem beim Zurückholen großer Datenmengen höher sind als erwartet. Zudem gibt es viele ­Anwendungen, vor allem beim Edge-Computing, die einen sehr schnellen ­Zugriff erfordern, den die Public Cloud nicht gewährleisten kann. Die meisten Firmen favorisieren daher Hybrid-Cloud-Lösungen, die praktisch alle Storage-Hersteller in ihrem Portfolio haben.

Ergänzendes zum Thema
Weiter Wachstum nach der Covid-19-Delle

In den vergangenen Jahren ist der Markt für externe Storage-Systeme kontinuierlich gewachsen, um mit dem steigenden Datenaufkommen Schritt zu halten. Zwar ging die Steigerung laut den Marktforschern von IDC zu einem guten Teil auf das Konto der ODM-Hersteller, bei denen die großen Hyperscaler wie AWS, Microsoft Azure und Google einkaufen, aber auch die für den Channel relevanten ­Anbieter machen immer noch gute Geschäfte. Umsatzbringer sind dabei vor allem All-Flash-Systeme, während Hybrid-Flash-Arrays an ­Boden verlieren. Weiterhin Druck bekommen reine externe Storage-Lösungen durch hyperkonvergente Systeme, die in den vergangenen Jahren ein zweistelliges Umsatzwachstum ­erzielen konnten.

Nach der Covid-19-Delle soll der Storage-Markt weiter wachsen.
Nach der Covid-19-Delle soll der Storage-Markt weiter wachsen.
( Bild: Statista )

Datenmanagement ist gefragt

Mit der Hybrid Cloud steigt der Bedarf nach einem effizienten Datenmanagement, um Daten schnell von On-Premises zu einem oder gleich mehreren Cloud Providern und wieder zurück zu bewegen. Hier haben nicht nur die Storage-Hersteller selbst, sondern zudem etliche Dritthersteller passende Lösungen im Angebot. Mit der wachsenden Bedeutung von Microservices, Containern und Orchestrierungssystemen wie Kubernetes bringen die Storage-Hersteller passende Lösungen auf den Markt, um ihre Speichersysteme aus Kubernetes aus nutzbar zu machen und mit Cloudservices zu verbinden. Generell sind Software-definierte Storage-Anwendungen auf dem Vormarsch.

Zwei weitere Wachstumstreiber für das Storage-Business sind Big Data und KI. Hier kommt zwar zu einem erheblichen Maß Cloud-Storage zum Einsatz, aber etliche Anwender nutzen aus Gründen der Performance oder wegen des Datenschutzes zumindest teilweise lokalen Speicher. Bei KI-Projekten wie Machine- und Deep-Learning kommen die unterschiedlichsten Storage-Systeme zum Einsatz, da hier diverse Anforderungen erfüllt werden müssen. Dazu zählen neben Cloud-Speichern auch Objektspeicher und verteilte Dateisysteme, mit denen eine große Datenmenge so gespeichert werden kann, dass sie kontinuierlich ist. Für das Training der Modelle sind schnelle Full-Flash-Speichersysteme gefragt, bevorzugt mit NVMe-SSDs bestückt.

Hybrid Cloud und Kubernetes sind zunehmend wichtige Themen in der Storage-Welt.
Hybrid Cloud und Kubernetes sind zunehmend wichtige Themen in der Storage-Welt.
(Bild: alzay - stock.adobe.com)

Flash boomt, HDD und Tape bleiben aktuell

All-Flash-Systeme sind auf der Liste der Storage-Produkte und -Lösungen, denen Systemhäuser in unserer Panel-Umfrage eine wichtige Rolle zubilligen, auf dem zweiten Platz angesiedelt, gleich hinter Cloud-Storage. Technologisch gibt es aktuell einige Entwicklungen, die einerseits für eine höhere Performance und andererseits für günstigere Preise sorgen. Mehr Geschwindigkeit bringen NVMe, in Zukunft erst recht mit PCI-Express 4.0, NVMe oF und Storage Class Memory (SCM). Mit SCM wird zwischen Arbeitsspeicher und Flash ein zusätzlicher Layer eingezogen, der in Strorage-Systemen die Zugriffe beschleunigt, NVMe oF minimiert die Latenzen bei über Fibre Channel (FC), Infiniband oder schnellen Ethernet-angebundenen Systemen.

Günstigere All-Flash-Systeme mit gleichzeitig höherer Kapazität ermöglicht der Einsatz von QLC-Flash. Hier soll laut den Herstellern durch entsprechende Software trotzdem die Haltbarkeit nicht leiden. Mit den Zoned Namespaces (ZNS), einer jüngst verabschiedeten Erweiterung des NVMe-Standards, wird ein Zugriffsmodell definiert, das sich an dem für SMR-HDDs anlehnt. Die SSD wird dabei in Zonen aufgeteilt, deren Belegung mit Daten direkt von den Applikationen kontrolliert wird. Vorteile sind weniger Over-Provisioning und günstigere SSDs, da weniger DRAM als Cache benötigt wird.

Als günstiges Speichermedium bleibt die HDD weiter wichtig, auch wenn der ­Absatz reiner HDD- und Hybrid-Storage-Systeme sinkt. Aktuell sind die Hersteller bei 3,5-Zoll-HDDs mit 20 TB Speicherplatz angekommen. Zukünftig sollen mit Technologien wie MAMR (Microwave Assisted Magnetic Recording) oder HAMR (Heat Assisted Magnetic Recording) eine weitere Kapazitätssteigerung auf mehr als 30 TB erreicht werden.

Als letzte Verteidigungslinie gegen den Datenverlust bleibt die Tape-Technologie aktuell. Sie ist als Offline-System das beste Mittel zum Schutz vor Ransomware-Attacken und ähnlichen Cyberangriffen. Weitere Argumente für das Band sind die niedrigen Energiekosten und die lange Haltbarkeit der Speichermedien. Auch die großen Hyperscaler setzen daher alle auf Tape als Teil ihrer Backup-Strategie. Mit der Beilegung des Patentstreits zwischen Fujifilm und Sony stehen nun auch wieder die LTO-8-Bänder mit 12 TB Speicherkapazität zur Verfügung. Mit dem ­gerade finalisierten LTO-9-Standard ­sollen sich unkomprimiert 18 TB und komprimiert 48 TB sichern lassen. Die Verwendung von Stronium- statt Bariumferrit soll in einigen Jahren sogar Bänder mit einem Fassungsvermögen von 400 TB ermöglichen.

Ergänzendes zum Thema
Storage für KI-Workloads

Kurt Gerecke, Storage­Berater bei Tech Data Advanced Solutions.
Kurt Gerecke, Storage­Berater bei Tech Data Advanced Solutions.
( Bild: Tech Data )

KI-Anwendungen benötigen große Datenmengen, um richtig zu funktionieren. Kurt Gerecke zeigt im Interview die richtige Storage-Strategie auf.

Herr Gerecke, was sind aus Ihrer Sicht die aktuell größten Herausforderungen für Anwender und Unternehmen in Bezug auf Storage und Data-Analytics? Und welche Anforderungen müssen Speichersysteme bei KI-Workloads erfüllen?

Kurt Gerecke: Am besten lassen sich die zukünftigen Anforderungen an Speicherinfrastrukturen anhand von KI-Projekten wie Machine und Deep Learning erklären, da bei solchen Projekten die unterschiedlichsten Anforderungen notwendig werden. Eines der wichtigsten Elemente liegt im Bereich der Skalierung, des Datenmanagements und der Leistungsfähigkeit. Die Herausforderung ergibt sich aus der Datensammlungsphase, dem Aufbereiten der Daten und dem Training von neuronalen Netzen. Hier bedarf es Infrastrukturen der unterschiedlichsten Art.

So können zum Beispiel für die Sammelphase der Daten aus den unterschiedlichsten Quellen Cloud-Speicherlösungen, Objektspeicher, Online-Archive und Filesysteme eine große Rolle spielen. Auch die Skalierbarkeit spielt hier eine wichtige Rolle. Für das Kategorisieren und Aufbereiten der Daten werden ausreichende Bandbreiten, Random-IOs für Lesen und Schreiben und ein intelligentes Verschieben der Daten an die richtigen Speicherplätze erforderlich. Für die Trainingsphase selbst sind in der Regel hohe Durchsätze (Random Read), schnellste Antwortzeiten, lineare Skalierung, Workflow-Integration, verschiedene Versionen und verschiedene Varianten notwendig. Ist der Algorithmus fertig und einsetzbar, ist es für Compliance-Zwecke wichtig, die Rückverfolgbarkeit der für das Training verwendeten Daten, also eine entsprechende revisionssichere Archivierung, sicherzustellen.

Für diese Archivierung wird mit absoluter Sicherheit das Medium Tape eine große Rolle spielen. Die Daten-Pipeline vom Sammeln der Daten bis zum Training und danach spiegelt also die unterschiedlichsten Anforderungen wider, und dem vollständig gerecht zu werden, darin liegt die Herausforderung an Speicherinfrastrukturen, wie wir sie zukünftig benötigen.

(ID:46881725)

Über den Autor

 Klaus Länger

Klaus Länger

Redakteur