Xinnor, israelischer Anbieter einer Software-definierten RAID-Lösung, hat es zusammen mit Megware, Celestica und Phison ermöglicht, dass Helma, der KI-Supercomputer der Friedrich-Alexander-Universität (FAU) Erlangen-Nürnberg, den dritten Platz im weltweiten IO500-Benchmark-Ranking und Platz eins unter den Lustre-basierten Lösungen erzielt hat.
Die zwei Racks von Helma sind durch schnelles InfiniBand verbunden.
(Bild: NHR@FAU / Megware)
Der Helma-Rechner des Nationalen Hochleistungsrechenzentrums NHR@FAU kombiniert 192 Rechenknoten, die über AMD-EPYC-„Genoa“-CPUs verfügen, mit 768 Nvidia-GPUs der Baureihen H100 und H200. Diese Leistung lässt ihn in der Top-500-Liste auf 51 rangieren. Das klingt nicht beeindruckend, aber das Gerangel unter den Top-100 ist groß, und fast alle Supercomputer nutzen Nvidia-GPUs.
Die HA-Speicherinfrastruktur ist auf die anspruchsvollen KI-Anforderungen ausgerichtet: Deep Learning für wissenschaftliche Anwendungen, Verarbeitung großer Sprachmodelle (LLMs) und natürlicher Sprache, IT-Optik, Robotik und Reinforcement-Learning sowie KI für technische Anwendungsgebiete, darunter Digitale Zwillinge und CFD-Optimierung (CFD: Computational Fluid Dynamics, also numerische Strömungsmechanik).
Zwei RAID-Versionen
Der israelische Anbieter Xinnor hat sich auf innovative RAID-Systeme spezialisiert. Solche Systeme machen Speichersysteme widerstandsfähig und flexibel, insbesondere in Hochleistungsanwendungen wie HPC, KI, Edge oder der Medienindustrie. Xinnor bietet seine RAID-Engine in den Versionen XiRAID Classic und XiRAID Opus an. XiRAID Classic eignet sich für lokales RAID und (Linux-)Block-Storage, braucht x86-CPUs und hat einen Linux-Kern als Betriebssystem. Der Serverprozessor wird nur zu einem kleinen Teil beansprucht, die Last gleichmäßig über mehrere Serverkerne verteilt.
xiOPUS hingegen ist im Anwenderraum angesiedelt und unabhängig vom Betriebssystemkern. Es passt zu vernetzten Systemen und virtualisierten Umgebungen, wo es mit virtIO, NVMe over RDMA oder TCP funktioniert. Der Hersteller hat Zusatzfunktionen wie NVMe-Initiator, NVMe over TCP/RDMA, ein iSCSI-Target und einen Vhost-Controller integriert. Die Lösung funktioniert mit x86-Prozessoren und ARM-DPUs. Es lastet dafür bestimmte CPU-Kerne vollständig aus.
Im Xinnor-System am NHR@FAU ist xiRAID Classic 4.2 in gekoppelten Clustern mit Lustre 2.16.1 im Einsatz. Die Tools Corosync und Pacemaker erlauben leistungsfähiges Clustering, das auf dem Betriebssystem AlmaLinux 9 läuft, was wiederum für die notwendige Hochverfügbarkeit und Fehlertoleranz sorgt.
Die Systemarchitektur des Supercomputers ist, gelinde gesagt, komplex. Oben sind als Lustre-Clients die 768 GPUs von Nvidia (links H100, rechts H220) zu finden, unten die Lustre-Server mit der Storage- und RAID-Infrastruktur.
(Bild: Xinnor / NHR@FAU)
Die Lösung, die vom Partner Megware implementiert wurde, umfasst zehn Celestica-SC6100-Storage-Bridge-Systeme mit jeweils einer AMD-EPYC-CPU, 384 GB Memory und mit einer Kombination aus Phison-Pascari-Laufwerken mit PCIe 5.0: vier 6,4-TB-Laufwerken für das Schreiben von Metadaten und 20 Laufwerken mit jeweils 30,72 TB für das Lesen des Datenspeichers.
Der Clou an Xinnors Lösung ist ein patentierter Algorithmus (AVX), der die Verteilung der RAID-Kalkulation durch die CPU optimiert. So wird weder ein Memory-Cache benötigt, noch blockiert der Striping-Vorgang. Diese Technologie wird sowohl in der OPUS- als auch in der lokalen RAID-Lösung eingesetzt.
Das System unterstützt den parallelen Zugriff der genannten 768 GPUs, um Datenmengen von mehreren Terabyte zu verarbeiten. Die Workloads erfordern den Datendurchsatz von Hunderten Gigabyte pro Sekunde und Millionen von IOPS für die Metadatenverarbeitung. Mit seinen per IO500-Benchmark gemessenen Leistungsdaten ist der NHR@FAU-Superrechner Helma der schnellste, der mit einem Lustre-basierten Storage-System arbeitet.
Hochverfügbarkeit
Mit dem integrierten Clustering mithilfe der Tools Pacemaker und Corosync implementiert xiRAID Classic erweiterte Fehlertoleranz für die Hochverfügbarkeit. Zudem ist jedes NVMe-Laufwerk über vier separate PCIe-Bahnen mit beiden Server-Nodes verbunden, wobei das Namespace-Splitting die gleichzeitige Nutzung beider Nodes ermöglicht. Diese Architektur gewährleistet, dass den Ausfall mehrerer Laufwerke und sogar kompletter Server-Nodes mithilfe von automatischem Failover und Failback-Fähigkeiten übersteht.
Die Implementierung bietet erhebliche operative Vorteile. Erstens gibt es keinen einzelnen „Point of Failure“ aufgrund von Dual-Port-NVMe, gespiegelten Metadatenzielen und verteilten Objektspeicherpools. Die Architektur auf der Basis von PCIe 5.0 und NDR400-InfiniBand bietet Erweiterungsfreiheit und ist somit zukunftsfähig.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Obwohl die Leistungsfähigkeit ungewöhnlich hoch ist, beträgt die Stellfläche des Server-Racks nur eine halbe Einheit, bei reduziertem Energie- und Kühlbedarf. Die Wirtschaftlichkeit wir durch 100 Prozent Standard-Hardware gestützt, und die Open-Source-Komponenten wie etwa AlmaLinux eliminieren einen Vendor-Lock-in.
Hochverfügbarkeitsfunktionen
„Die xiRAID-gestützte Speicherinfrastruktur hat unsere Fähigkeit zur Unterstützung der KI-Großforschung verändert“, sagt Prof. Gerhard Wellein, Direktor der NHR@FAU. „Die Beseitigung von I/O-Engpässen bedeutet, dass unsere Forscher die 768 GPUs in Helma für Deep Learning, Quantenchemie und atomistische Simulationen voll nutzen können. Die Hochverfügbarkeitsfunktionen gewährleisten einen ununterbrochenen Zugriff auf unsere Datensätze im Petabyte-Bereich, was für ein nationales HPC-Zentrum von entscheidender Bedeutung ist.“
„Platz 3 im globalen IO500-Ranking und Platz 1 unter den Lustre-Lösungen bestätigen unser Engagement für die Leistung der Enterprise-Klasse, ohne Kompromisse bei Zuverlässigkeit oder Wirtschaftlichkeit einzugehen“, betont Davide Villa, CRO bei Xinnor. „Die Helma-Inbetriebnahme zeigt, wie xiRAID das Potenzial modernster Hardware maximieren und gleichzeitig die Flexibilität und Wirtschaftlichkeit von handelsüblichen Komponenten aufrechterhalten kann.“
Markus Hilger, HPC-Techniker beim Dienstleister Megware, ist überzeugt: „Die Zusammenarbeit mit Xinnor am Helma-Projekt demonstriert die Leistungsfähigkeit innovativer Software-definierter Speicher.“ Weiter: „Durch die Kombination der fortschrittlichen RAID-Funktionen von xiRAID mit unserer Systemintegrationsexpertise sind wir in der Lage, hochverfügbare Speicherlösungen mit einer Leistung in unmittelbarer Nähe der Hardwaregrenzen und ohne Engpässe zu entwickeln.“
„Unsere Pascari-PCIe-5.0-Laufwerke wurden speziell für diese Bereitstellung ausgewählt, um die perfekte Balance zwischen Leistung und Ausdauer für KI-Workloads zu bieten“, berichtet Albert Kang, leitender Business Director bei Phison. „Die Integration mit der RAID-Software von Xinnor schafft eine optimale Speichergrundlage, die die Funktionen unserer NVMe-Technologie in Unternehmen voll ausschöpft.“
Hinweis
Der vollständige Anwenderbericht, der sämtliche technischen Spezifikationen und eine Leistungsanalyse umfasst, lässt sich hier nachlesen.
Aktuelles eBook
All-Flash-Arrays mit NVMe – eine Chance für neue Use Cases
eBook „All-Flash-Arrays mit NVMe“
(Bild: Storage-Insider)
Gegenüber herkömmlichen drehenden Festplatten setzen sich zunehmend mit SSDs bestückte Flash-Systeme durch und punkten im Verbund mit NVMe vor allem durch hohe Geschwindigkeit. Wann lohnt sich der Einsatz eines All-Flash-Arrays im Unternehmen? Und welches System ist das passende? Diese und weitere Fragen beantwortet unser neues, kostenloses eBook.
Die Themen im Überblick:
Technologische Grundlagen: Was ist NVMe-Flash?
Use Cases: Wann lohnt sich ein NVMe-Array fürs Unternehmen?