Mobile-Menu

Umgang mit der Datenflut Storage speziell fürs Superrechnen

Von lic.rer.publ. Ariane Rüdiger 5 min Lesedauer

Anbieter zum Thema

Hochleistungsrechnen und seine Kombination mit KI oder Quantensystemen verlangt auch von Storage neue Lösungen, um mit der Datenflut fertig zu werden. Einiges davon gab es auf der ISC High Performance 2025 (International Supercomputing Conference) in Hamburg zu sehen.

Um die Datenflut in den Griff zu bekommen, sind neben leistungsfähigem Computing vor allem auch entsprechende Storage-Lösungen gefragt.(Bild:  Midjourney / KI-generiert)
Um die Datenflut in den Griff zu bekommen, sind neben leistungsfähigem Computing vor allem auch entsprechende Storage-Lösungen gefragt.
(Bild: Midjourney / KI-generiert)

Klassisches High-Performance-Computing (HPC) und andere Formen höchstleistungsfähiger Berechnungen, etwa KI-Algorithmen oder Quantencomputing, wachsen zusammen. Gleichzeitig nimmt die Datenvielfalt gewaltig zu – in Menge und Formen von Daten, die zu verwalten sind. Unstrukturierte Daten, Zeitreihen, alle möglichen Arten von Messwerden, Bilder, akustische Daten und vieles andere mehr sind zu speichern und mit möglichst wenig Verzögerung der Auswertung zugänglich zu machen.

Das führt zu neuen Angeboten bei Hard- und Software. Pure Storage hat vor Kurzem seine neue Lösung Flashblade Exa vorgestellt, die sich besonders auf KI-Umgebungen fokussiert. Klassiker der Hochleistungs-Storage wie DDN waren präsent, brachten aber ebenfalls nichts absolut Neues mit.

Point: S3-to-Tape-Library

Die deutsche Hardwareschmiede BDT Media Automation hatte zusammen mit Comback und Point ihre schon auf dem Cloudfest in Rust im März vorgeführte Orion MC6 S3-to-Tape-Library im Gepäck. Sie wird mit dem vorinstallierten S3-Objektspeicher Point Archival Gateway kombiniert. Für BDT ist das eine Premiere, denn bislang arbeitete das Unternehmen nur im Rahmen von OEM-Agreements.

Das Gerät passt in jedes Standard-Rack, unterstützt LTO-Medien. Die Schnittstelle ist Standard-S3. Bis zu 21 LTO-9-FH-Laufwerke passen in das System, das maximal 974 Slots bietet. Die Objektspeicher-Software hat einen Durchsatz von bis zu 8,4 Gbit/s.

Die angepeilten Kunden sind Hyperscaler, Managed-Service-Provider und große Unternehmen. Dazu kommen Forschungseinrichtungen, die mit KI arbeiten. Anwendungsfelder sind beispielsweise Backup und Archivierung.

Huawei: KI-Data-Lake

Huawei brachte seine erst im Mai vorgestellte KI-Data-Lake-Lösung mit nach Hamburg. Sie beschleunigt KI-Modelltraining und Interferenz. Zudem integriert sie Datenspeicherung, Datenmanagement und Ressourcenmanagement mit den jeweils genutzten KI-Toolchains.

Das Gerät enthält OceanStor-Speicher der Serie A, eine All-Flash-Scale-Out-Storage. Die Kapazitätsdichte der Speichereinheit liegt bei 4 PByte pro zwei Höheneinheiten, der Stromverbrauch nur bei 0,25 W/TB. Die integrierte Backup-Lösung sorgt für stark beschleunigte Sicherung von KI-Grund- und Vektordatenbank-Daten. Die Backup-Geschwindigkeit soll, verglichen mit anderen Lösungen, erheblich erhöht sein. Ransomware-Angriffe erkennt das System laut Hersteller mit 99,99 Prozent Genauigkeit.

Die Datenverwaltung erfolgt mit der Datenverwaltungsplattform DME aus dem Omni-Dataverse. Die Software kann Daten aus über 100 Milliarden räumlich verteilten Dateien sehr schnell abrufen und zur Verarbeitung bereitstellen.

Quobyte: Paralleles, globales Filesystem als Resultat des Europa-Projekts Xtreme OS

Gleich mehrere Softwareunternehmen zeigten auf der ISC, wie sie die Datenmassen der HPC- und KI-Anwendungen bändigen wollen. Besonders wichtig sind dafür leistungsfähige parallele Dateisysteme. Eines davon stammt von dem Berliner Unternehmen Quobyte. Es wurde 2012 gegründet und präsentierte sein erstes Produkt 2016.

Diese relativ lange Zeit ist der Tatsache geschuldet, dass der gesamte Softwarestack von Quobyte inhouse neu entwickelt wurde. Das System ist aus dem europäischen Forschungsprojekt XtreemFS hervorgegangen.

Die Firma ist bereits profitabel, bedient über 70 Kunden und hat 45 Beschäftigte. Zu den Kunden gehört beispielsweise Siemens Healthineers. Bei der Datenverwaltung für den Supercomputer Sherlock des Unternehmens, ein Teil der AI-Factory der Firma, konnte sich Quobyte durchsetzen. Die Konkurrenten waren Lustre auf ZFS und BeeGFS.

Die Software verwaltet dort ein Speichervolumen von mehr als 90 PByte. Im Einsatz überzeugte Quobyte laut Siemens Healthineers vor allem durch niedrige Betriebskosten aufgrund von Standard-Hardware und einfacher Konfiguration, unterbrechungsfreien Betrieb durch fehlertolerante Dreiwege-Replikation und Erasure Coding, hohe Skalierbarkeit, die heterogene Zugangsmöglichkeit zu den Daten und fortschrittliche Sicherheitsfunktionen.

Das Filesystem arbeitet im Userspace, belastet also die zentralen Rechenressourcen nicht. Es läuft auf jeder Standard-Hardware sowie GPUs.

Die Prozesse werden an klassischen Flaschenhälsen wie NFS oder dem Betriebssystem-Kernel vorbei abgewickelt. Die Architektur ist auf lineare Skalierung von bis zu Tausenden von Knoten und Leistungen von 43 GByte/s pro Knoten ausgelegt – sie erfolgt einfach dadurch, dass neue Server an die Gesamtlösung angeschlossen werden.

Starfish: Jeder kann ein bisschen Daten managen

Starfish, seit elf Jahren am Markt, befasst sich mit dem Management unstrukturierter Daten, wobei darunter Files und Objekte verstanden werden. Das Unternehmen wird privat gehalten. Die Software läuft auf Unix-Servern.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Das Leistungsspektrum umfasst Archivierung, Recovery, Backup und Restore, Clean-up, Kostenberechnungen und Rückvergütung, Aging-Management und Analyse der Daten. Im Kern der Lösung steckt der Unstructured Data Catalog (UDC), eine Karte aller angeschlossenen Datenbestände. Sie können auf den unterschiedlichsten HPC-Clustern, NAS-Boxen, diversen Filesystemen, Windows-Servern oder sonst wo liegen.

Die Software analysiert, wer wie viel Storage nutzt, wie viel Raum was verschlingt, welche Daten kaum genutzt werden und was das kostet. Sie erstellt unterschiedliche Reports für die verschiedenen Funktionen. Daten können für Aktionen oder Workflows getagged werden. Das System findet mehrfach vorhandene, verschlüsselte und unverschlüsselte Dateien, managt die Zugriffsrechte und findet Hinweise auf Ransomware-Angriffe. Es extrahiert Metadaten aus über 80 Dateitypen.

Aufgaben wie das Verschieben oder Replizieren von Files, Recovery und Backup einschließlich Versionierung lassen sich automatisieren, wobei alle denkbaren Speichermedien einbezogen sind. Über die sogenannten Storage Zones können Anwendern selbst bestimmte Tasks zum Storage-Management zugewiesen werden, um das zentrale Management zu entlasten. Gleichzeitig bleibt jedoch der Überblick erhalten.

Über hundert Kunden haben die Lösung schon installiert; dominierende Firmen sind Pharmazie, Entertainment, Wissenschaft. Derzeit laufen Verhandlungen über eine Implementierung bei der Helmholtz-Gesellschaft.

Qstar: softwarebasierendes Globalarchiv

Noch ein drittes Beispiel: Die US-Softwareschmiede Qstar ist schon 38 Jahre alt. Sie hat ein europäisches Büro in Mailand. Ihre Lösung Global Archivespace generiert über alle vorhandenen Archive einer Einrichtung einen globalen Namensraum. Erfasst werden Archivbestände bei den drei großen Hyperscalern, private Tape-Librarys und beliebige S3-Objektspeicher.

Die Daten werden für den Anwender so präsentiert, als lagerten sie auf einem NAS-Speicher. Zugänglich sind sie für die Anwender über eine Reihe von Knoten, die mit SMB, NFS und/oder S3 angebunden sein können und entsprechend dem Bedarf entsprechend über FC oder SAS mit Storage ausgerüstet sind. Die Skalierung des Systems erfolgt durch Hinzufügen neuer Speicherknoten, die aus Standard-Serverhardware bestehen.

Die Auslegung erlaubt es, dass jeder Anwender alle vorhandenen Tape-Medien von jedem Ort aus erreichen und lesen kann, auch wenn es sich um Hunderte Bandbibliotheken handelt. Inzwischen nutzen mehr als 20 Kunden die Lösung. Meistens handelt es sich um Universitäten, Forschungszentren wie die Europäische Raumfahrtbehörde ESA oder Regierungseinrichtungen.

Die Archivlösung arbeitet mit Qstar Private AI zusammen, einer Software, die eine private AI-Umgebung im Unternehmen schafft. Daten werden bei der Inferenz gesichert und anschließend ins Archiv überstellt. Dazu gehört das Tool Magicdoc, mit dem sich komplexe Unternehmensdokumente wie Reports, Prüf- und andere Dokumentationen und Whitepapers, Handbücher strukturiert und gemeinsam erstellen und managen lassen.

Aktuelles eBook

Storage-Software als Effizienzbooster

eBook Storage-Software als Effizienzbooster
eBook „Storage-Software als Effizienzbooster“
(Bild: Storage-Insider)

Mit der geeigneten Storage-Software kann sich ein Unternehmen einen Effizienzbooster ins Haus holen oder in der Cloud abonnieren. Dieser Booster steigert nicht nur die Performance der geschäftskritischen Anwendungen, sondern optimiert auch die Kosten der bereits installierten Speichersysteme.

Die Themen im Überblick:

  • Herausforderungen eines modernen Speichersystems
  • Methoden und Technologien effizienter Speichersysteme
  • Effizienter Speicher mit Pure Storage, AWS, Cohesity und Dell

(ID:50463215)