Azure Stack HCI, VMware vSAN und Data Lakes mit KI nutzen Storage für den Einsatz mit KI und ML, Teil 3

Autor / Redakteur: Thomas Joos / Dr. Jürgen Ehneß

Unternehmen, die Daten für KI- und ML-Anwendungen speichern, benötigen Zugriff auf Datenspeicher, der schnell und leistungsstark zur Verfügung steht und gleichzeitig schnell skalierbar ist. Wir geben einen Überblick.

Beim Einsatz von KI und ML sind entsprechende Storage-Systeme gefordert.
Beim Einsatz von KI und ML sind entsprechende Storage-Systeme gefordert.
(Bild: gemeinfrei / Pixabay )

Der Einsatz von KI findet eine immer größere Verbreitung in Unternehmen aller Größenordnungen. Seit 2016 hat sich die Anzahl der Unternehmen, die auf KI setzen, mehr als verdreifacht. Machine Learning, Deep Learning und andere Einsatzgebiete spielen eine große Rolle in vielen Bereichen. KI-Anwendungen benötigen große Datenmengen und müssen schnell auf diese Daten zugreifen können.

Suchen Unternehmen Datenspeicher für KI- und ML-Einsatzgebiete, ist die Suche oft langwierig und schwierig. Der Speicher muss in die eigene Infrastruktur passen und gleichzeitig schnell und skalierbar sein. Besonders häufig kommt Software-Defined Storage (SDS) zum Einsatz. Als Hardware wird meistens auf NVMe/SSD gesetzt. Besonders häufig entscheidet man sich hier auch für Object Storage. Dabei stellt sich häufig auch die Frage, ob der bereits vorhandene Datenspeicher im Unternehmen für KI genutzt werden kann.

Wir haben uns bereits in den beiden Beiträgen „Storage-Lösungen für den Einsatz mit KI und ML“ und „Storage für den Einsatz mit KI und ML, Teil 2“ mit diesem Thema auseinandergesetzt.

Mehr Hardware ist nicht immer die beste Lösung

Um mehr Speicherplatz zu schaffen, gehen viele Unternehmen den Weg, neue Hardware zum Speichern der Daten im Netzwerk zu implementieren. Allerdings reicht die Erhöhung der Anzahl der Datenträger nicht aus, um KI-konformen Datenspeicher zu schaffen. Bei der Skalierung der Hardware fällt oft auch die Leistung im Rechenzentrum pro Gigabyte. Dazu kommt das erhöhte Risiko eines Ausfalls.

Wenn zusätzliche Hardware im Unternehmen verbaut wird, sollte darauf geachtet werden, dass keine veraltete Technologie zum Einsatz kommt, sondern dass Datenspeicher verwendet werden, die mit KI-Anwendungen einsetzbar sind. Teilweise sind nicht nur die Datenträger nicht ausreichend, zum Beispiel HDD oder SSD an SATA, sondern auch die verwendeten Schnittstellen. Hier muss darauf geachtet werden, dass diese mit der Leistung der Datenträger mithalten können.

Bei der Planung des Datenspeichers können NVMe-SSD und damit die Verwendung von PCIe eine gute Grundlage darstellen, um Datenspeicher für KI und ML zur Verfügung zu stellen. Die verwendete Managementlösung für den Speicher muss natürlich ebenfalls für den Einsatz in KI-Szenarien eingesetzt werden können. Hier werden häufig Ceph, VMware vSAN und Azure Stack HCI genutzt.

Azure Stack HCI für KI-Szenarien einsetzen

Sehr viele Speichersysteme, die für KI-Szenarien eingesetzt werden, unterstützen die Vorteile von NVMe und damit PCIe. Es lohnt sich also, darauf zu achten, wie der Speicher zum Einsatz kommen soll. Azure Stack HCI bietet die Möglichkeit, hyperkonvergente Hybridinfrastrukturen aufzubauen. Azure Stack HCI ermöglicht nicht nur eine umfassende Verwaltung der angebundenen Speichersysteme, sondern stellt auch verschiedene Dienste zur Verfügung, mit denen KI-Daten auch gleich verarbeitet werden können.

Azure Stack HCI arbeitet bei der Verwaltung von Datenspeichern mit Storage-Spaces-Direct (S2D) aus Windows Server 2019. Hier wurde auch eine Optimierung für NVMe integriert, sodass schnelle Hardware ideal verwaltet und den KI-Diensten zur Verfügung gestellt wird. Azure Stack HCI ist hier aber sehr flexibel und ermöglicht auch die Anbindung von SATA, SAS oder Persistent Memory Drives. Hier wird bereits bei der Installation und der Einrichtung darauf geachtet, dass die Hardware nicht nur bestimmten Grundvoraussetzungen entsprechen muss, sondern dass die Komponenten ideal miteinander zusammenarbeiten.

RAID-Controller-Karten oder SAN-Speicher (Fibre Channel, iSCSI, FCoE), gemeinsam genutzte SAS-Gehäuse, die mit mehreren Servern verbunden sind, und jede Form von Multi-Path IO (MPIO), bei der Laufwerke über mehrere Pfade zugänglich sind, werden in Azure Stack HCI aus Leistungsgründen nicht unterstützt. Host-Bus-Adapter-Karten (HBA) müssen einen einfachen Pass-Through-Modus implementieren.

Es sollten zum Beispiel auf allen Servern in einem Azure-Stack-HCI-Cluster die beteiligten Laufwerke und Schnittstellen möglichst identisch sein. Dazu kommt, dass im Cluster auf den einzelnen Knoten auch Laufwerke für die verschiedenen Einsatzbereiche getrennt werden. Protokolle und Daten sollten getrennt voneinander abgelegt werden. Auch das ist für den Einsatz mit KI wichtig.

Genau hier liegen die Vorteile bei einer umfassenden Kombination von Hardware, Software und Managementlösung in Verbindung mit Diensten zur Verarbeitung von KI-Daten.

Data Lakes können für den Einsatz mit KI sinnvoll sein

Beim Einsatz von Data Lakes können strukturierte und unstrukturierte Daten gemeinsam gespeichert werden. Die Daten werden in ihrer ursprünglichen Form gespeichert und sind daher sehr schnell auf dem Speichersystem verfügbar und können weiterverarbeitet werden. Durch die Möglichkeit, Daten schnell und einfach auch ohne Strukturierung speichern zu können, können Anwender sehr viel flexibler und bei gleichzeitig hoher Leistung KI-Daten speichern und lesen, da die Daten auf zahlreichen Wegen gespeichert werden können und Data Lakes bei der Speicherung sehr flexibel sind.

Alle Daten liegen in ihrer ursprünglichen Form vor und können unbegrenzt weiterverarbeitet werden. Interessant ist hier auch die Möglichkeit, dass die Daten von verschiedenen Quellen in den Data Lake fließen können und sich anschließend weiterverarbeiten lassen. Dabei kann die Weiterverarbeitung genau dann stattfinden, wenn die KI-Lösung diese benötigt. Durch die hohe Skalierbarkeit kann der Data Lake die Daten sammeln und zur Verfügung stellen. Wenn noch andere Lösungen im Netzwerk zum Einsatz kommen, die große Datenmengen speichern, können auch diese vom Data Lake profitieren.

Storage-Management Teil 1, Immer den Überblick behalten

Um einen umfassenden Überblick bieten zu können, behandelt dieses eBook unter anderem die folgenden Themen:
# Was ist Storage-Management?
# Nahe Verwandte des Speichermanagements.
# Der Status quo der Storage-Systeme

eBook „Storage-Management“ downloaden

(ID:47004351)

Über den Autor

 Thomas Joos

Thomas Joos

Freiberuflicher Autor und Journalist