Womit sich Startups heute beschäftigen, Teil 22

Weshalb Artificial Intelligence in der Speicherumgebung unverzichtbar wird

| Autor / Redakteur: Guy Berlo* / Rainer Graefen

Diskprophet ist nur das erste KI-Produkt von Prophetstor. Letztlich geht es dem Startup um ein herstellerunabhängiges IT-Management.
Diskprophet ist nur das erste KI-Produkt von Prophetstor. Letztlich geht es dem Startup um ein herstellerunabhängiges IT-Management. (Bild: Prophetstor)

Speicher ist ein Verschleissprodukt. Aufgerüstet mit Hochverfügbarkeit, Redundanz, Backup-, DR-Konzepten und teuren Wartungsverträgen versuchen Unternehmen mit diesem Problem umzugehen. Doch die Wahrscheinlichkeit von Ausfällen wird dadurch nur vermehrt. Eine bessere Vorhersage von Defekttrends verspricht das Startup Prophetstor.

Unabhängig davon, ob klassischer Disk-Speicher, moderner Flash-Speicher oder NVMe, die Speichermedien und auch die darin befindliche Elektronik haben eine begrenzte Haltbarkeit. Leider existieren nur theoretische Werte, wie lange eine Platte „lebt“ und wann diese ausfällt.

IT-Manager sichern sich ab, indem sie Daten redundant vorhalten, beispielsweise in RAID-Gruppen oder in separierten gespiegelten Datenzentren auf anderen Platten. Neben den klassischen Silo-Architekturen sind HCI und Scale-Out-Architekturen im Vormarsch.

Redundanz ist keine Frage eines gut gefüllten Ersatzteillagers

Diese entzerren zwar die Redundanz knotenübergreifend, die Probleme werden jedoch nur verlagert und nicht gelöst. Performance und Redundanz/Verfügbarkeit können nicht wirklich koexistieren, sondern haben einen völlig gegenläufigen Verlauf. Es ist immer eine gewisse Unsicherheit vorhanden wann eine Platte ausfällt.

Alle nachfolgenden Maßnahmen sind reaktiv im Falle des Ausfalls oder der Zunahme von fehlerhaften Sektoren der Platten: Notevakuierung der Daten (inklusive Beten, dass es gelingt), Service-Partner rufen, Platten tauschen. Dazu kommt, dass während dieser reaktiven Maßnahme die Applikationen unter Lasteinbruch leiden und man zudem nicht gegen einen zweiten Plattenausfall geschützt ist, ohne zusätzliche Kosten zu haben. Es ist bei der Vielfalt an unterschiedlichen Speicherlösungen nur in begrenzten Umfang möglich, einen Vorrat an neuen Platten auf Halde zu legen.

Für diese Herausforderung gibt es Lösungen, die nicht nur Meldung geben, wenn eine Platte ausgefallen ist. Diese Lösungen sagen voraus wann die Platten unter der gegebenen Last ausfallen und wann der beste Zeitpunkt für eine proaktive Maßnahme (z.B. Evakuierung und Tausch, Service Partner bestellen) ist. Damit ist sogar eine strategische Planung für den Speicher und den Austausch einzelner/mehrerer Platten oder ganzer Systeme möglich.

Dem Plattenausfall vorzubeugen kann aufwändig und teuer sein

In der klassischen Siloarchitektur mit RAID Controller und gespiegelten und/oder replizierten Plattentürmen macht ein Plattenausfall erst einmal noch keine großen Probleme. Die schadhafte Platte kann zeitnah im laufenden Betrieb ausgewechselt werden – sofern man bereit ist den Premiumpreis für teure Controller und mehrere Plattentürme gleicher Hersteller zu bezahlen.

Bei modernen massiv skalierbaren Konzepten sieht die Situation ganz anders aus. Jeder Knoten eines Scale-Out-Systems stellt Rechen- und Festplattenkapazität bereit, die Redundanz wird knotenübergreifend gelöst und RAID wird z.B. als Erasure Coding umgesetzt.

Datenblöcke der Applikation A werden auf der SSD oder HDD des Knoten A abgelegt, Kopien davon auf anderen Festplatten weiterer Knoten B und C (und D) u.s.w. Beim Ausfall einer Platte werden die Datenblöcke über die anderen Knoten bereitgestellt, die über das lokale Netzwerk sicherbar sind.

Vor dem Fehler handeln

Die Konsequenz: im Fehlerfall entsteht aufgrund der fehlenden Datenlokalität eine höhere Latenz für die Applikation und ein deutlicher Lasteinbruch. Hinzu kommt, dass das System versucht den Plattenfehler zu beheben, d.h. die Daten von der Platte zu evakuieren und gegebenen falls über eine Ersatzplatte die verteilte Redundanz wieder herstellen.

Ein solcher Rekonstruktionsprozess kann bei den heutigen Festplattengrößen Stunden bis Tage dauern, da das System versucht, gleichzeitig die Applikation zu bedienen. Neuere Versionen können eine definierte Bandbreite bereitstellen, um das Ende der Latenzbeeinträchtigung planen zu können. Immer vorausgesetzt, dass während des Rebalancingprozesses kein zweiter Fehler auftritt, etwa ein Defekt einer zweiten Platte. Die Lasteinbrüche je nach Konfiguration liegen zwischen 25 bis 75 Prozent.

Entscheidend ist der Rekonstruktionsprozess, (Datenevakuierung bei defekten Platten, nach sich häufenden fehlerhaften Sektoren über S.M.A.R.T. (Self Monitoring, Analysis und Reporting Technology) Informationen) der immer noch eine rein reaktive Maßnahme ist, wenn das System bereits krankt. Wie beim Sport wäre es besser das System weniger anfällig für unabwendbar auftretende Probleme zu machen.

AI für rechtzeitige Warnung vor einem Plattenausfall

Es existieren diverse Tools, welche die SMART-Daten der Platten regelmäßig kontrollieren und dem IT-Administrator melden. Doch zum einen ist es schwer, bei der Menge an Festplatten und Speichersystemen, die Übersicht zu behalten und die Daten zu interpretieren, zum anderen ist durch Untersuchungen bekannt, dass man mit reinen SMART-Daten mit nur etwa einer Genauigkeit und Vertrauensebene von etwa 30 Prozent die fehlerhafte Platte identifiziert werden kann.

ProphetStor geht mit seinem DiskProphet einen entscheidenden Schritt weiter und verwendet auf Künstliche Intelligenz (KI) und Machine Learning (ML) basierte Algorithmen, um die Fehlervorhersagegenauigkeit auf ein Niveau von 95 bis 99 Prozent zu heben. Das heißt mindestens 95 Prozent der Plattenausfälle können vermieden und damit die Verfügbarkeit der Scale-out Infrastruktur erheblich verbessert werden.

Auch die höheren Fehlertoleranz-Werte können vermieden werden – es müssen nicht mehrere redundante Platten/Kopien oder Ebenen der Datenhaltung vorgehalten werden. Somit lassen sich Kosten einsparen. Und die Applikationen leiden nicht unter dem Lasteinbruch während eines ungeplanten Rebuild-Prozesses.

ML funktioniert

Wie werden die deutlich besseren Ergebnisse erzielt? Es werden verschiedene Quellen von Daten genutzt und verknüpft. Algorithmen werden mit einer großen Menge an historischen Daten gefüttert und lassen das System lernen, Verhaltensmuster verstehen, um damit später Anomalien wiederzuerkennen und Ausfälle vorherzusagen.

Neben den SMART-Daten werden weitere Informationen in Echtzeit genutzt. Dazu gehören etwa Metadaten, ganz gleich ob HDDs, SSDs oder NVMe, Lastdatenprofile, Einsatztrends, unkontrolliertes Herunterfahren oder die Konfiguration der Umgebung (HCP, vSAN, Nutanix, Ceph etc.).

Die KI beleuchtet hierbei nicht nur simple Zustandswerte einzelner Festplatten. Sie berechnet beispielsweise anhand der Häufigkeit von Schreib-/Lesezugriffen, Zugriffs-Peaks oder auch Hitzeschwankungen, wann eine Festplatte voraussichtlich ausfallen wird. Diese Berechnungen werden mit dem Alter der Platte kumuliert und ermöglichen eine Vorhersage über das Disk-Ausfallzeitfenster, mögliche Anomalie-Vorkommnisse, betroffene Knoten und Auswirkung auf die Performance.

Dies erlaubt es IT-Administratoren, die Platten noch vor einem Ausfall proaktiv zu tauschen und damit einen Lasteinbruch oder Ausfall mit Failover/Rebalancing auf andere Knoten oder gar möglichen Produktionsstillstandzeiten zu verhindern. Diese ML-Technologie wurde mit historischen Daten und an echten Produktionsumgebungen verifiziert.

Strategische Speicherplanung

Wie in allen Bereichen der Geschäftswelt ist nichts wertvoller, als eine zuverlässige Voraussage – so auch beim Speicher. DiskProphet liefert derartige Daten und hilft IT-Administratoren bei der sicheren Planung für die gezielte Erneuerung der Speicherinfrastruktur.

Neben den Auswertungen der AI hinsichtlich möglicher Ausfälle, zeigt die Lösung wertvolle Trends auf. Beispielsweise kann die Zunahme in der Häufigkeit von Schreib-Lesezugriffen ein gutes Indiz dafür sein, bestimmte Datenbereiche auf andere Speichersysteme zu verlegen.

Steigen die Zugriffe und auch die Menge der Abfragen und Schreibprozesse, kann es durchaus sinnvoll sein, die Daten auf einen höherwertigen Speicher zu verschieben oder Applikationen und Container zu verlagern. Dies hat gleich zwei Vorteile: Nutzer haben einen schnelleren Zugriff und die höherwertigen Speichereinheiten können mit der größeren Belastung besser umgehen und verschleißen weniger als weniger hochwertiger Speicher.

Zur Korrelation von Prozessen und Verhaltensmuster lassen sich andere Ebenen (OS/VM/Applikationsebene) mit einbeziehen. Aufgeschlüsselt in übersichtliche Reports können dann Aussagen getroffen werden, wie lange die bestehenden Speichersysteme noch für die Aufgaben geeignet sind und vor allem, welche Speichersysteme künftig benötigt werden. Dies erleichtert eine Kapazitätsplanung deutlich und kann unnötige Investitionen einsparen oder an einen sinnvollen Zeitraum verschieben.

Fazit

Künstliche Intelligenz, ist bereits in zahlreichen Bereichen der IT nicht mehr wegzudenken. Und es werden mehr. Die KI erleichtert vor allem die Entscheidungsfindung von IT-Spezialisten maßgeblich. Künstliche Intelligenz kombiniert in komplexe Speicherumgebungen verschafft Unternehmen eine wesentlich höhere Sicherheit bei der Planung ihrer Infrastrukturressourcen und in der Entwicklung der passenden Umgebungen für künftige Anforderungen.

* *Guy Berlo, VP Central EMEA Sales and Operations bei ProphetStor

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45408484 / Festplatte)