Mobile-Menu

KI auf Höchstleistung GPU-Power trifft Cyber-Resilienz

Ein Gastbeitrag von Paul Speciale* 4 min Lesedauer

Anbieter zum Thema

Mit der fortschreitenden Transformation von Unternehmen durch Künstliche Intelligenz (KI) – von der Kundeninteraktion bis hin zur Produktinnovation – wächst die Nachfrage nach leistungsstarker und sicherer Infrastruktur. Eine zentrale Rolle in dieser Transformation spielen die Grafikprozessoren (GPUs), deren Bedeutung durch führende Anbieter wie NVIDIA unterstrichen wird.

Die Komplexität von KI-Modellen erfordert skalierbaren Speicher, der unabhängig von den Rechenressourcen wächst. Disaggregierte Architekturen verbessern die Nutzung, während Sicherheitsrisiken, vor allem in Cloud-Umgebungen, zunehmen.(Bild:  Midjourney / KI-generiert)
Die Komplexität von KI-Modellen erfordert skalierbaren Speicher, der unabhängig von den Rechenressourcen wächst. Disaggregierte Architekturen verbessern die Nutzung, während Sicherheitsrisiken, vor allem in Cloud-Umgebungen, zunehmen.
(Bild: Midjourney / KI-generiert)

NVIDIA bearbeitet mittlerweile den Großteil der Workloads für das Training und die Inferenz von KI-Modellen. Laut KD Market Insights wird der GPU-Markt von 2024 bis 2033 mit einer durchschnittlichen jährlichen Wachstumsrate (CAGR) von 14,2 Prozent wachsen und bis 2033 voraussichtlich einen Umsatz von 1.409,7 Milliarden US-Dollar (1,4 Billionen US-Dollar!) erreichen.

Allerdings gibt es zwei häufig übersehene Komponenten, die genauso entscheidend für die Leistung von KI-Plattformen sind: die Durchsatzkapazität von Speichersystemen sowie die Bereitschaft im Bereich der Cybersicherheit. Gartner liefert detaillierte Informationen zur Bedeutung dieser Elemente für die Sicherstellung einer insgesamt robusten KI-Infrastruktur.

Die Lücke schließen: Speichersysteme müssen mit der GPU-Geschwindigkeit Schritt halten

Moderne KI-Modelle verarbeiten gewaltige Datensätze. Ihre Effektivität hängt zunehmend davon ab, wie effizient Daten an GPU-Cluster geliefert werden können. GPUs, die mit umfangreichen internen Speicherkonfigurationen sowie Technologien für Hochgeschwindigkeitsnetzwerke ausgestattet sind, verdeutlichen die Notwendigkeit, dass externe Speichersysteme weit über das hinausgehen müssen, was traditionelle Lösungen leisten können.

Da jede GPU typischerweise etwa 2 GB pro Sekunde an Daten Throughput liefern kann, erfordert eine Konfiguration mit 8 GPUs etwa 16 GB pro Sekunde – Anforderungen, die in größeren KI-Superclustern exponentiell steigen. Die Priorität liegt daher nicht nur auf der reinen Speicherkapazität, sondern auch auf der Effizienz des Datendurchsatzes pro Petabyte.

Dateisysteme, Object-Storage und GPU-Direct

POSIX-konforme Dateisysteme stellen nach wie vor die Grundlage für KI-Workflows dar, insbesondere in Verbindung mit NVIDIAs GPU-Direct – einer Technologie, die einen direkten Datenaustausch zwischen Speicher und GPU-Speicher ermöglicht und so CPU-Flaschenhälse vermeidet. Dennoch ist ein Wandel zu beobachten: Object-Storage gewinnt zunehmend an Bedeutung – insbesondere in Cloud-Umgebungen, in denen Hyperscale-Anbieter Objektspeicher intensiv zum Einsatz bringen. Aufgrund der Skalierbarkeit und des geringeren Overheads im Vergleich zu traditionellen Dateisystemen deutet einiges darauf hin, dass bald ein Object-native-Zugriffsverfahren für GPU-Direct zum Standard wird, auch in On-Prem Bereitstellungen.

Analysten haben in jüngsten Studien vermehrt die Vorteile von Object-Storage für die Verarbeitung von KI-Modellen thematisiert. Echtzeit-Inferenz-Workloads, die auf schnelle „In-Memory“-Verarbeitung von Milliarden (bald Billionen) von Modell-Tokens angewiesen sind, eignen sich jedoch weniger für groß angelegte externe Speichersysteme. Diese Anwendungen erfordern eine extrem niedrige Latenz sowie eine speichernahe Rechenleistung, was den Bedarf an Speicherarchitekturen unterstreicht, die auf spezifische Anwendungsfälle fein abgestimmt sind.

Speicher: (noch immer) ein blinder Fleck in den Strategien von KI-Teams

Trotz seiner Allgegenwart wird Speicher oft von KI- und Data-Science-Teams weniger priorisiert. Viele Projekte verlassen sich weiterhin auf traditionelle Infrastrukturen, obwohl neuere Lösungen speziell für KI-Workloads entwickelt wurden. Da KI-Modelle zunehmend komplexer und datenintensiver werden, ist der Bedarf an skalierbarem, leistungsstarkem Speicher entscheidend. Disaggregierte Speicherarchitekturen, die Speichermodule von Rechenressourcen trennen, ermöglichen eine unabhängige Skalierung und eine effiziente Ressourcennutzung, die den hohen Leistungsanforderungen moderner KI-Anwendungen gerecht werden.

Der andere Engpass: Sicherheit in Hochleistungs-KI-Umgebungen

Während die Leistung im Vordergrund steht, wird die Sicherheitslage von KI-Infrastrukturen zunehmend wichtiger. Dies gilt insbesondere, wenn Workloads in Multi-Tenant- und Cloud-native Umgebungen migrieren. Technologien wie GPU-Direct, die den Datendurchsatz steigern, können auch neue Sicherheitslücken eröffnen. So kann gemeinsam genutzter GPU-Speicher zu unbefugtem Datenzugriff (Leckage) führen und unautorisierten Zugriff zwischen verschiedenen Mandanten ermöglichen.

Der direkte Zugriff auf Schnittstellen öffnet zudem Wege für Malware-Injektionen durch Ausnutzung von Speicherpuffer-Schwachstellen. In unzureichend isolierten Umgebungen kann ein kompromittierter Workload eines Mandanten die Integrität anderer bedrohen. Diese Risiken sind insbesondere in Cloud- und HPC-Kontexten (High-Performance-Computing) verstärkt, in denen Hardware virtualisiert und zwischen mehreren Nutzern geteilt wird. Dennoch gehen viele Organisationen davon aus, dass solche Umgebungen von Natur aus sicher sind – eine Annahme, die sich als kostspielig herausstellen könnte.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

KI-Workloads sichern: ein strategischer Rahmen

Um KI-Workloads in HPC-Umgebungen effektiv zu sichern, müssen Unternehmen über statische, perimeterbasierte Sicherheitsmechanismen hinausgehen und auf infrastrukturell tiefe, Arbeitslasten-bewusste Sicherheitsstrategien setzen. Dies erfordert ein widerstandsfähiges Framework, das Sicherheit in den Kern der KI-Infrastruktur integriert. Zu den Schlüsselkomponenten gehört die Implementierung von granularen Zugriffskontrollen, die strikte, identitätsbasierte Richtlinien zur Steuerung des Zugriffs auf GPUs und Speicherressourcen durchsetzen.

Ebenso entscheidend ist der Einsatz umfassender Verschlüsselungsprotokolle, die Daten über den gesamten Lebenszyklus hinweg schützen – im Ruhezustand, während der Übertragung und, wenn technisch möglich, während der Verarbeitung – unter Verwendung fortschrittlicher Technologien wie homomorpher Verschlüsselung sowie Trusted-Execution-Environments (TEEs).

Darüber hinaus sollten Organisationen Software-definierte Speicherarchitekturen einführen, die von Natur aus widerstandsfähig sind und Cyber-Abwehrmechanismen wie Datenunveränderlichkeit, WORM-Funktionen (Write-Once-Read-Many) und Echtzeit-Anomalieerkennung integrieren. Schließlich sollten Object-Storage-Lösungen mit Sicherheitsdesign Priorität genießen, insbesondere in Cloud-nativen Bereitstellungen, da sie native Telemetrie, integrierte Bedrohungserkennung und automatisierte Wiederherstellungsabläufe bieten, um die Datenintegrität und -verfügbarkeit unter widrigen Bedingungen sicherzustellen.

Schnell voran – aber mit Bedacht: das Gleichgewicht zwischen Geschwindigkeit und Sicherheit

Während KI-Plattformen in Größe und Komplexität wachsen, muss der Kompromiss zwischen Leistung und Sicherheit neu gedacht werden. In der Realität können sich Unternehmen nicht mehr leisten, das eine auf Kosten des anderen zu priorisieren – vielmehr sind beide unentbehrlich. Die Zukunft der KI-Infrastruktur liegt in Hochdurchsatz-, Low-Latency-Speichersystemen, die zunehmend auf Object-Storage-Paradigmen mit direkter GPU-Integration basieren und durch moderne, adaptive Maßnahmen der Cybersicherheit gehärtet werden. Nur Unternehmen, die ihre Strategien zur Infrastruktur tatsächlich mit dieser Vision in Einklang bringen, werden in der Lage sein, die transformative Kraft von KI sicher und nachhaltig zu nutzen.

* Der Autor: Paul Speciale, CMO, Scality

Aktuelles eBook

Ransomware-Schutz durch Object Lock und WORM

eBook „Ransomware-Schutz“
(Bild: Storage-Insider)

Um ein Storage-System effektiv von Ransomware-Angriffen zu schützen, bieten sich neben Backup/Disaster Recovery und Verschlüsselung vor allem Object Lock und WORM an. Das gelingt nicht nur im eigenen Haus, sondern auch in der Hybrid-Cloud.

Die Themen im Überblick:

  • Ransomware-Trends
  • Air-Gapping
  • Amazon S3 Object Lock
  • WORM mit Bandspeicher
  • Schutz durch Algorithmen

(ID:50447171)