Mobile-Menu

Storage mit Nvidia-GPUDirect-Beschleunigung Cloudian erweitert Objektspeicher-Nutzung

Von Michael Matzer 5 min Lesedauer

Anbieter zum Thema

Cloudian will die KI-Datenspeicherung mit Hilfe einer skalierbaren und leistungsstarken Objektspeicherlösung vereinfachen. Da die Erweiterung auf Converged Ethernet und die S3-API aufbaue, lasse sie sich einfach implementieren. Nötig sei lediglich ein neuer Mellanox Switch X7 anstelle der aktuellen Mellanox Connect X5, so Sascha Uhl, ein Technikexperte bei Cloudian. Die IO-Bandbreite zur GPU wächst schlagartig auf 200 GB pro Sekunde. Der ideale Anwendungsfall: die KI-Pipeline.

Cloudian macht seinen HyperStore-Objektspeicher KI-tauglich.(Bild:  ©Just_Super, Getty Images Signature via Getty Images)
Cloudian macht seinen HyperStore-Objektspeicher KI-tauglich.
(Bild: ©Just_Super, Getty Images Signature via Getty Images)

Die Erweiterung der aktuellen Cloudian-Version HyperStore 8.1 um die Unterstützung von Nvidia Magnum IO GPUDirect stellt also keine neue Edition dar und erfordert laut Uhl keine neue Lizenzierung.

Bildergalerie

„Das macht es für unsere Bestandskunden wie etwa Banken, Großunternehmen und Universitäten leicht, ihren bestehenden Technikstapel zu modernisieren“, so Uhl. „Sie brauchen kein Infiniband oder andere Komponenten, sondern lediglich den neuen Mellanox-Switch Connect X7 anstelle des bestehenden X5. Kunden mit vorhandenen Flash-basierten Systemen können dann recht einfach durch Wechsel der Netzwerkkarte auf eine Connect X7 ihr System mit GPUDirect kompatibel machen.“ Cloudian bietet nun seine Hardware auch mit dieser Karte an.

Nvidia GPUDirect Storage mit Nvidia ConnectX und Nvidia-BlueField-Netzwerktechnologien optimiert die Datenübertragungsgeschwindigkeit, indem die direkte Kommunikation zwischen Nvidia-GPUs und mehreren Cloudian-Speicherknoten ermöglicht wird. In Multi-Node-Systemen mit mehreren GPUs bildet die „langsame“ CPU mit ihrer Single-Thread-Leistung einen Flaschenhals im kritischen Pfad zwischen lokalen oder entfernten Storage-Geräten und der GPU. Beseitigt man jedoch den Umweg über die CPU und den Systemhauptspeicher, kann der Datenzugriff auf entfernten Storage über bis zu acht Mal 200-GB/s-NICs realisiert werden, wodurch nach Nvidia-Angaben eine parallelisierte Storage-Bandbreite von bis zu 1,6 TB/s erzielt werden kann. Dies macht deutlich, welche entscheidende Rolle Netzwerkkarten (NICs) und Switches spielen.

Der ideale Use-Case für Bandbreiten mit 200 GBps ist die KI-Pipeline. „Cloudian HyperStore mit GPUDirect-Zugriff vereinfacht das Management von KI-Trainings- und -Inferenzdatensätzen – im Petabyte- und Exabyte-Bereich – und reduziert gleichzeitig die Kosten, indem komplexe Datenmigrationen und veraltete Dateispeicherebenen vermieden werden“, erläutert Uhl. Er erwartet, dass auch das KI-Framework PyTorch Unterstützung für GPUDirect ankündigen wird, denn Cloudian arbeite an der entsprechenden Umsetzung.

Uhl sieht die wichtigsten Vorteile in den Workflows für Modelltraining und -Inferenz. „Kunden erweitern mühelos auf Exabyte-Skala ohne Unterbrechung und unterstützen wachsende KI-Datensätze ohne zusätzliche Verwaltungsaufwände.“ Datenmigrationen seien nicht nötig: „Betreiben Sie einen einzigen, einheitlichen Data Lake, ohne ständig Daten zwischen Ebenen verschieben zu müssen.“ Gerade bei diesen Transfers können erhebliche unkalkulierbare Gebühren anfallen, etwa für Egress.

„Wir haben sehr konkurrenzfähige Transferleistung in unseren Labortests gemessen und werden weitere Messungen in den Proofs-of-Concept bei unseren Kunden vornehmen“, berichtet der Technikexperte. „Diese Leistung wird über einen Zeitraum von 30 Minuten ohne Daten-Caching aufrechterhalten.“ GPU mache die Notwendigkeit für veraltete Dateispeicherebenen obsolet und senkt so die Infrastrukturkosten.

Erhöhte Sicherheit

Es sind keine Kernel-Modifikationen nötigt, was die Sicherheitslücken anbietergetriebener Kernel-Modifikationen beseitigt und potenzielle Schwachstellen reduziert. Indem die CPU durch GPUDirect umgangen wird (siehe Abbildung 1), lässt sich die CPU-Last während der Datenübertragung um rund 45 Prozent verringern. Das wiederum setzt Rechenressourcen für die KI-Verarbeitung frei: für das Training, die Inferenz, Vektordatenbanken und RAG (Retrieval Augmented Generation). „Bei Bedarf bieten wir natürlich Beratung dafür an“, so Uhl.

Bildergalerie

Skalierbarkeit

Veraltete dateibasierte Speichersysteme in KI-Workflows erfordern laut Uhl häufige Datenverschiebungen zwischen Langzeit- und Hochgeschwindigkeitsspeicher, was die Verwaltung erschwert. Mit der Lösung von Cloudian erfolgen KI-Training und Inferenz direkt auf den Daten vor Ort, wodurch Workflows beschleunigt und häufige Migrationen eliminiert werden. Die unbegrenzte Skalierbarkeit von Cloudian HyperStore ermöglicht es KI-Data-Lakes, auf Exabyte-Niveau zu wachsen, während die zentrale Verwaltung eine einfache, einheitliche Kontrolle über Multi-Rechenzentrums- und Multi-Tenant-Umgebungen sicherstellt.

Eine weitere Erleichterung, um alle Daten an nur einem Ort, nämlich dem Cloudian-Objektspeicher, zu halten, besteht in der automatischen Erzeugung von Metadaten. „Reichhaltige Metadaten ermöglichen schnelle Suchvorgänge ohne externe Datenbanken“, erläutert Uhl.

Reduzierte Speicherkosten

Das Management der enormen Datensätze, die für KI-Workflows benötigt werden, kann sowohl kostspielig als auch ressourcenintensiv sein. Die Software-definierte Plattform von Cloudian hilft, diese Herausforderungen zu bewältigen, indem die Notwendigkeit einer separaten Dateispeicherebene entfällt. Da KI-Workflows direkt innerhalb des objektbasierten Data Lakes ablaufen, können Organisationen das Datenmanagement vereinfachen und gleichzeitig die Betriebs- und Kapitalausgaben sowie die Gesamtkomplexität erheblich reduzieren.

Partnerstimmen

„Cloudians Integration von Nvidia GPUDirect Storage in die HyperStore-Reihe von Objektspeicher-Appliances, die auf Supermicro-Systemen basieren, einschließlich der Hyper 2U- und 1U-Server, der hochdichten SuperStorage-90-Bay-Speicherserver und der Simply Double 2U-24-Bay-Speicherserver stellt eine bedeutende Innovation in der Nutzung von Objektspeicher für KI-Workloads dar“, sagt Michael McNerney, SVP Marketing und Netzwerksicherheit. „Dies wird unseren gemeinsamen Kunden ermöglichen, leistungsfähigere und kosteneffizientere KI-Infrastrukturen im großen Maßstab einzusetzen.“ Sascha Uhl erklärt, dass Cloudian aktuell auch mit HPE und Lenovo entsprechende Lösungen erarbeite.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

„Schnelle, konsistente und skalierbare Leistung in Objektspeichersystemen ist entscheidend für KI-Workflows“, konstatiert Rob Davis, Vice President für Speichertechnologie bei Nvidia. „Sie ermöglicht Echtzeitverarbeitung und Entscheidungsfindung, die für Anwendungen wie Betrugserkennung und personalisierte Empfehlungen unerlässlich sind.“

Verfügbarkeit

Cloudian HyperStore mit Nvidia-Magnum-IO-GPUDirect-Storage-Technologie ist ab sofort verfügbar. Der Verkauf erfolgt nur über Cloudian-Reseller.

Kundenstimme

„Als Pioniere in der KI-gesteuerten Prozessoptimierung freut sich ControlExpert über die Integration von GPUDirect für Objektspeicher von Cloudian, insbesondere da wir bereits Cloudian S3 in unseren Betrieb integriert haben“, stellt Dr. Sebastian Schoenen, Director of Innovation & Technology bei ControlExpert GmbH, fest. „Diese Technologie hat das Potenzial, unser Datenmanagement erheblich zu vereinfachen und unsere KI-Workflows durch die Reduzierung komplexer Datenmigrationen und den direkten Hochgeschwindigkeitszugriff auf unsere umfangreichen Datensätze zu beschleunigen. Dies passt perfekt zur Mission von ControlExpert, die digitale Transformation in unserer Branche voranzutreiben.“ Uhl merkt an, dass ControlExpert bereits großes Interesse an der GPUDirect-Erweiterung bekunde, aber noch keinen Anwendungsfall identifiziert habe.

Aktuelles eBook

Storage für HPC & KI

eBook Storage für HPC & KI
eBook „Storage für HPC & KI“
(Bild: Storage-Insider)

Speichersysteme für das HPC und für die verschiedenen Disziplinen der KI sind hohen Anforderungen ausgesetzt. Denn sie müssen enorme Datenmengen in kürzester Zeit bereitstellen oder sammeln. Wie können diese Herausforderungen gemeistert werden?

Die Themen im Überblick:

  • Aktuelle Trends in der Künstlichen Intelligenz
  • High-Performance Computing – Explosion der Innovationen
  • Künstliche Intelligenz – nahezu Echtzeit-Datenverarbeitung

(ID:50244849)