Ein Storage-Konzept für HPC und AI

DAOS (Distributed Asynchronous Object Storage) Ein Storage-Konzept für HPC und AI

24.07.2025 Von lic.rer.publ. Ariane Rüdiger 5 min Lesedauer

Anbieter zum Thema

HPC und AI verlangen wegen ihres Datenhungers neue Storage-Konzepte. Einst von Intel für Optane maßgeschneidert, wurde DAOS (Distributed Asynchronous Object Storage) nun in eine eigene Stiftung ausgelagert und wird Open Source weiterentwickelt. Was hinter der Technologie steckt.

Das DAOS-Konzept soll für bisher unerreichbare Skalierbarkeit und Leistung, besonders hohen Durchsatz und andere bislang nicht realisierte Fähigkeiten stehen.(Bild: Midjourney / KI-generiert) — Das DAOS-Konzept soll für bisher unerreichbare Skalierbarkeit und Leistung, besonders hohen Durchsatz und andere bislang nicht realisierte Fähigkeiten stehen.
(Bild: Midjourney / KI-generiert)

HPC und AI arbeiten mit unzähligen Daten, die die unterschiedlichsten Formate haben können. Manche werden in Key-Value-Stores vorgehalten, manche in strukturierter Form. Es ist nicht ausgeschlossen, dass sich weitere Formate entwickeln. Noch dazu liegen die Daten oft nicht direkt beieinander, sondern sogar räumlich weiter entfernt. Um solche Pools unter ein Dach zu bekommen und schnelle Abfragen zu ermöglichen, wurde DAOS (Distributed Asynchronous Object Storage) entwickelt.

Hinter DAOS stecken, wie auf der Website der 2023 gegründeten Stiftung zu lesen ist, zwölf Jahre Entwicklung (von 2012 bis 2024), vornehmlich durch Intel. Der Chipspezialist hatte sich dieses Storage-Konzept vor allem in Zusammenhang mit seiner Persistent-Memory-Lösung (PMEM) Optane vorgestellt. Doch die wurde dann abgekündigt.

Was tut die DAOS Foundation?

Da die Technologie an sich vielversprechend ist, beschloss man dann, sie im Rahmen einer Stiftung weiterzuentwickeln, so dass die Basistechnologie offenliegt, eben der DAOS Foundation. Der gehören derzeit das Argonne National Laboratory, Google, HPE, Intel und Vdura an. Vdura seinerseits hat eine hochskalierbare Datenplattform entwickelt, die auf Mikroservices aufsetzt.

Zentrale DAOS-Schnittstelle ist ein hochleistungsfähiger und -skalierbarer Key-Value-Store.(Bild: DAOS Foundation) — Zentrale DAOS-Schnittstelle ist ein hochleistungsfähiger und -skalierbarer Key-Value-Store.
(Bild: DAOS Foundation)

Die Stiftung, organisiert im Rahmen der Linux Foundation, soll jetzt wachsen, verkündete Johann Lombardi, TSC (Technical Sub Committee) Chair, DAOS Foundation während einer IT-Press-Tour in London. Dort stellte er Journalisten die DAOS-Technologie und einige erste Anwendungen vor. Die Foundation wirbt um neue Mitglieder und sucht natürlich Anwendungsmöglichkeiten. Außerdem soll noch in diesem Jahr das Release 2.8 fertig werden.

Was wurde bisher erreicht?

Die Version 1.0 von DAOS kam schon 2020 auf den Markt, der erste Prototyp 2016. 2017 gelang es, DAOS in einen FPGA einzubetten, und seit 2018 wurde an DAOS zur Implementierung auf dem Superrechner Aurora gearbeitet. Dieses Projekt war Ende 2023 abgeschlossen, mehr oder weniger gleichzeitig erfolgte die Gründung der Stiftung.

Um DAOS von Intels Octane unabhängig zu machen, werden jetzt Konfigurationen auch ohne PMEM möglich gemacht.(Bild: DAOS Foundation) — Um DAOS von Intels Octane unabhängig zu machen, werden jetzt Konfigurationen auch ohne PMEM möglich gemacht.
(Bild: DAOS Foundation)

Inzwischen ist ein Parallelstore verfügbar. Und Aurora hat erfolgreich die Arbeit aufgenommen, wo sich DAOS nun im praktischen Betrieb bewährt. Zu diesem Beispiel später.

Geplant ist, die Technologie auf unterschiedlichen Infrastrukturen zu testen. Beispielsweise auch auf ARM/AMD, mit mehr und unterschiedlichen Fabrics, Linux-Distributionen, Cloud-Umgebungen und vor allem ohne PMEM, da der Markt diese Technologie nicht favorisiert.

Was sind die Grundprinzipien von DAOS?

Das DAOS-Konzept soll für bisher unerreichbare Skalierbarkeit und Leistung, besonders hohen Durchsatz und andere bislang nicht realisierte Fähigkeiten stehen. Beispielsweise gibt es im I/O-Pfad kein Überschreiben bereits geschriebener, dann wieder gelesener und veränderter Daten. Stattdessen setzt das System auf Versionierung. Sie ist der Kern der neuen Technologie. Diese Versionen werden als „Epoch“ bezeichnet. Vorbilder waren Lustre, Google Spanner und ähnliche Datenbankdesigns.

Es gibt weder einen zentralen Metadatenserver noch eine globale Objekttabelle. Genauso wenig Kernel-Code und das ärgerliche Vendor-Lock-In. Inkonsistenzen sind laut Foundation ausgeschlossen, da mit versionierten I/Os in Byte-Granularität gearbeitet wird. Es wird kontrolliert, ob sich Versionen widersprechen. Sobald ein Ein-/Ausgabevorgang abgeschlossen ist, sind die Daten aus diesem Vorgang persistent.

Ein-/Ausgaben sollen in späteren Versionen vollständig blockierungsfrei verarbeitet werden. Die Transaktionen sind verteilt und lassen sich serialisieren. Klientenfähigkeit ist eingebaut, und Anwender selbst können Snapshots ziehen. Mit diesen Mechanismen will DAOS viele Verzögerungsquellen aus bisherigen Storage-Systemen eliminieren.

Was sind Pools?

Daten werden in sogenannten Pools zusammengefasst. Sie sind real vorhandene vorgebuchte Storage-Partitionen, die der Systemadministrator verwaltet. Pools werden in Kapazität, Übertragungsgeschwindigkeit und Ein-/Ausgabeleistung spezifiziert, können aber auf verschiedene Systeme (Engines) verteilt sein. Jeder Pool erhält einen Namen und kann ein oder mehrere Datasets umfassen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Pools können einzelne, mehrere oder alle Engines umfassen. Auf den Pools können feingranuliert Zugangskontrolllisten gelegt werden. Zum Beispiel lässt sich ein Pool einrichten, in den vorübergehend alle Burst-Daten gespeichert werden.

Im „Speicherhungrig“-Podcast hat Chefredakteur Dr. Jürgen Ehneß dieses Mal Markus Grau, Enterprise Architect – Office of the CTO, vor dem Mikrofon. (Bild: Vogel IT-Medien)

Was sind Datasets und Container?

Container sind nur virtuell provisionierte Teile eines Pools. Für jeden Container können die Zugriffe detailliert geregelt werden. Im Container ruhen die Datasets, die wiederum Millionen Files umfassen können. Diese Container haben eine leistungsstarke Abfrageschnittstelle, über die Anwender auf das darin befindliche Dataset zugreifen.

Die Datasets lösen die Dateien als Grundeinheit der File- und Objektspeicherung ab. Jedes Dataset hat einen bestimmten Datentyp, zum Beispiel Posix, KV oder Python. Snapshots beziehen sich auf Datasets, und Abfragen richten sich an ein oder mehrere Datasets.

Wie werden Daten geschützt und gesichert?

Metadaten und Filesystem werden über alle Engines eines Systems verteilt. Das übernimmt die grundlegende Key-Value-Array-Schnittstelle. Zugriffe können über die Open-Source-Fabric libfabric oder UCX (Unified Communication X, eine offene, universelle Schnittstelle) erfolgen.

DAOS-Daten können mit zahlreichen unterschiedlichen Erasure-Codings (2+1, 2+2, 4+1, 4+2, 8+1, 8+2, 16+1 and 16+2), laut der Stiftung aber mit so ziemlich jeder Reed-Salomon-Codierung, vor Verlusten geschützt werden. Die Engines überwachen sich gegenseitig. Bei einem Ausfall wird die betreffende Engine abgeklemmt, die Redundanz wieder hergestellt und das System dann Schritt für Schritt wieder mit Changes beschrieben, sofern die Hardware intakt ist.

Wo wird DAOS bereits genutzt?

Im Spitzenreiter unter den Computern des Jahres 2024, Aurora vom Argonne National Laboratory, arbeitet DAOS. (Bild: Argonne National Lab) — Im Spitzenreiter unter den Computern des Jahres 2024, Aurora vom Argonne National Laboratory, arbeitet DAOS.
(Bild: Argonne National Lab)

DAOS läuft bereits im Aurora-Supercomputer. Dessen Compute-Nodes bestehen aus zwei Intel-Xeon-Scalable-„Sapphire-Rapids“, 6 Xe-GPUs, einheitlicher Speicherarchitektur und acht Fabrik-Endpunkten. CPUs und GPUs sind über PCIe, GPUs über Xe-Ling verbunden. Das System, das auf einem HPE Cray EX basiert, umfasst mehr als 9.000 Knoten. Die Storage-Kapazität, die über DAOS verwaltet wird, liegt bei über 25 TB, die Gesamtkapazität allerdings bei mehr als 2.340 PB.

Das DAOS-System in Aurora umfasst 1.024 DAOS-Knoten aus jeweils zwei Xeon 5320-CPUs mit 512 GB DRAM und acht TB Optane PMEM 200, dazu kommen 244 TB NVMe-SSDs und zwei HPE-Slingshot-Netzadapter. Datenschutz ist nicht implementiert, aber Fehlerkorrektur. Die nutzbare DAOS-Kapazität beträgt zwischen 220 und 249 PB. Auf der Supercomputer-Liste des Jahres 2024 erreichte der Aurora damit den ersten Platz.

Aktuelles eBook

Storage für HPC & KI

Speichersysteme für das HPC und für die verschiedenen Disziplinen der KI sind hohen Anforderungen ausgesetzt. Denn sie müssen enorme Datenmengen in kürzester Zeit bereitstellen oder sammeln. Wie können diese Herausforderungen gemeistert werden?

Die Themen im Überblick:

Aktuelle Trends in der Künstlichen Intelligenz
High-Performance Computing – Explosion der Innovationen
Künstliche Intelligenz – nahezu Echtzeit-Datenverarbeitung

eBook „Storage für HPC & KI“ kostenlos downloaden

(ID:50479392)