Mobile-Menu

DAOS (Distributed Asynchronous Object Storage) Ein Storage-Konzept für HPC und AI

Von lic.rer.publ. Ariane Rüdiger 5 min Lesedauer

Anbieter zum Thema

HPC und AI verlangen wegen ihres Datenhungers neue Storage-Konzepte. Einst von Intel für Optane maßgeschneidert, wurde DAOS (Distributed Asynchronous Object Storage) nun in eine eigene Stiftung ausgelagert und wird Open Source weiterentwickelt. Was hinter der Technologie steckt.

Das DAOS-Konzept soll für bisher unerreichbare Skalierbarkeit und Leistung, besonders hohen Durchsatz und andere bislang nicht realisierte Fähigkeiten stehen.(Bild:  Midjourney / KI-generiert)
Das DAOS-Konzept soll für bisher unerreichbare Skalierbarkeit und Leistung, besonders hohen Durchsatz und andere bislang nicht realisierte Fähigkeiten stehen.
(Bild: Midjourney / KI-generiert)

HPC und AI arbeiten mit unzähligen Daten, die die unterschiedlichsten Formate haben können. Manche werden in Key-Value-Stores vorgehalten, manche in strukturierter Form. Es ist nicht ausgeschlossen, dass sich weitere Formate entwickeln. Noch dazu liegen die Daten oft nicht direkt beieinander, sondern sogar räumlich weiter entfernt. Um solche Pools unter ein Dach zu bekommen und schnelle Abfragen zu ermöglichen, wurde DAOS (Distributed Asynchronous Object Storage) entwickelt.

Hinter DAOS stecken, wie auf der Website der 2023 gegründeten Stiftung zu lesen ist, zwölf Jahre Entwicklung (von 2012 bis 2024), vornehmlich durch Intel. Der Chipspezialist hatte sich dieses Storage-Konzept vor allem in Zusammenhang mit seiner Persistent-Memory-Lösung (PMEM) Optane vorgestellt. Doch die wurde dann abgekündigt.

Was tut die DAOS Foundation?

Da die Technologie an sich vielversprechend ist, beschloss man dann, sie im Rahmen einer Stiftung weiterzuentwickeln, so dass die Basistechnologie offenliegt, eben der DAOS Foundation. Der gehören derzeit das Argonne National Laboratory, Google, HPE, Intel und Vdura an. Vdura seinerseits hat eine hochskalierbare Datenplattform entwickelt, die auf Mikroservices aufsetzt.

Zentrale DAOS-Schnittstelle ist ein hochleistungsfähiger und -skalierbarer Key-Value-Store.(Bild:   DAOS Foundation)
Zentrale DAOS-Schnittstelle ist ein hochleistungsfähiger und -skalierbarer Key-Value-Store.
(Bild: DAOS Foundation)

Die Stiftung, organisiert im Rahmen der Linux Foundation, soll jetzt wachsen, verkündete Johann Lombardi, TSC (Technical Sub Committee) Chair, DAOS Foundation während einer IT-Press-Tour in London. Dort stellte er Journalisten die DAOS-Technologie und einige erste Anwendungen vor. Die Foundation wirbt um neue Mitglieder und sucht natürlich Anwendungsmöglichkeiten. Außerdem soll noch in diesem Jahr das Release 2.8 fertig werden.

Was wurde bisher erreicht?

Die Version 1.0 von DAOS kam schon 2020 auf den Markt, der erste Prototyp 2016. 2017 gelang es, DAOS in einen FPGA einzubetten, und seit 2018 wurde an DAOS zur Implementierung auf dem Superrechner Aurora gearbeitet. Dieses Projekt war Ende 2023 abgeschlossen, mehr oder weniger gleichzeitig erfolgte die Gründung der Stiftung.

Um DAOS von Intels Octane unabhängig zu machen, werden jetzt Konfigurationen auch ohne PMEM möglich gemacht.(Bild:   DAOS Foundation)
Um DAOS von Intels Octane unabhängig zu machen, werden jetzt Konfigurationen auch ohne PMEM möglich gemacht.
(Bild: DAOS Foundation)

Inzwischen ist ein Parallelstore verfügbar. Und Aurora hat erfolgreich die Arbeit aufgenommen, wo sich DAOS nun im praktischen Betrieb bewährt. Zu diesem Beispiel später.

Geplant ist, die Technologie auf unterschiedlichen Infrastrukturen zu testen. Beispielsweise auch auf ARM/AMD, mit mehr und unterschiedlichen Fabrics, Linux-Distributionen, Cloud-Umgebungen und vor allem ohne PMEM, da der Markt diese Technologie nicht favorisiert.

Was sind die Grundprinzipien von DAOS?

Das DAOS-Konzept soll für bisher unerreichbare Skalierbarkeit und Leistung, besonders hohen Durchsatz und andere bislang nicht realisierte Fähigkeiten stehen. Beispielsweise gibt es im I/O-Pfad kein Überschreiben bereits geschriebener, dann wieder gelesener und veränderter Daten. Stattdessen setzt das System auf Versionierung. Sie ist der Kern der neuen Technologie. Diese Versionen werden als „Epoch“ bezeichnet. Vorbilder waren Lustre, Google Spanner und ähnliche Datenbankdesigns.

Es gibt weder einen zentralen Metadatenserver noch eine globale Objekttabelle. Genauso wenig Kernel-Code und das ärgerliche Vendor-Lock-In. Inkonsistenzen sind laut Foundation ausgeschlossen, da mit versionierten I/Os in Byte-Granularität gearbeitet wird. Es wird kontrolliert, ob sich Versionen widersprechen. Sobald ein Ein-/Ausgabevorgang abgeschlossen ist, sind die Daten aus diesem Vorgang persistent.

Ein-/Ausgaben sollen in späteren Versionen vollständig blockierungsfrei verarbeitet werden. Die Transaktionen sind verteilt und lassen sich serialisieren. Klientenfähigkeit ist eingebaut, und Anwender selbst können Snapshots ziehen. Mit diesen Mechanismen will DAOS viele Verzögerungsquellen aus bisherigen Storage-Systemen eliminieren.

Was sind Pools?

Daten werden in sogenannten Pools zusammengefasst. Sie sind real vorhandene vorgebuchte Storage-Partitionen, die der Systemadministrator verwaltet. Pools werden in Kapazität, Übertragungsgeschwindigkeit und Ein-/Ausgabeleistung spezifiziert, können aber auf verschiedene Systeme (Engines) verteilt sein. Jeder Pool erhält einen Namen und kann ein oder mehrere Datasets umfassen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Pools können einzelne, mehrere oder alle Engines umfassen. Auf den Pools können feingranuliert Zugangskontrolllisten gelegt werden. Zum Beispiel lässt sich ein Pool einrichten, in den vorübergehend alle Burst-Daten gespeichert werden.

Was sind Datasets und Container?

Container sind nur virtuell provisionierte Teile eines Pools. Für jeden Container können die Zugriffe detailliert geregelt werden. Im Container ruhen die Datasets, die wiederum Millionen Files umfassen können. Diese Container haben eine leistungsstarke Abfrageschnittstelle, über die Anwender auf das darin befindliche Dataset zugreifen.

Die Datasets lösen die Dateien als Grundeinheit der File- und Objektspeicherung ab. Jedes Dataset hat einen bestimmten Datentyp, zum Beispiel Posix, KV oder Python. Snapshots beziehen sich auf Datasets, und Abfragen richten sich an ein oder mehrere Datasets.

Wie werden Daten geschützt und gesichert?

Metadaten und Filesystem werden über alle Engines eines Systems verteilt. Das übernimmt die grundlegende Key-Value-Array-Schnittstelle. Zugriffe können über die Open-Source-Fabric libfabric oder UCX (Unified Communication X, eine offene, universelle Schnittstelle) erfolgen.

DAOS-Daten können mit zahlreichen unterschiedlichen Erasure-Codings (2+1, 2+2, 4+1, 4+2, 8+1, 8+2, 16+1 and 16+2), laut der Stiftung aber mit so ziemlich jeder Reed-Salomon-Codierung, vor Verlusten geschützt werden. Die Engines überwachen sich gegenseitig. Bei einem Ausfall wird die betreffende Engine abgeklemmt, die Redundanz wieder hergestellt und das System dann Schritt für Schritt wieder mit Changes beschrieben, sofern die Hardware intakt ist.

Wo wird DAOS bereits genutzt?

Im Spitzenreiter unter den Computern des Jahres 2024, Aurora vom Argonne National Laboratory, arbeitet DAOS. (Bild:  Argonne National Lab)
Im Spitzenreiter unter den Computern des Jahres 2024, Aurora vom Argonne National Laboratory, arbeitet DAOS.
(Bild: Argonne National Lab)

DAOS läuft bereits im Aurora-Supercomputer. Dessen Compute-Nodes bestehen aus zwei Intel-Xeon-Scalable-„Sapphire-Rapids“, 6 Xe-GPUs, einheitlicher Speicherarchitektur und acht Fabrik-Endpunkten. CPUs und GPUs sind über PCIe, GPUs über Xe-Ling verbunden. Das System, das auf einem HPE Cray EX basiert, umfasst mehr als 9.000 Knoten. Die Storage-Kapazität, die über DAOS verwaltet wird, liegt bei über 25 TB, die Gesamtkapazität allerdings bei mehr als 2.340 PB.

Das DAOS-System in Aurora umfasst 1.024 DAOS-Knoten aus jeweils zwei Xeon 5320-CPUs mit 512 GB DRAM und acht TB Optane PMEM 200, dazu kommen 244 TB NVMe-SSDs und zwei HPE-Slingshot-Netzadapter. Datenschutz ist nicht implementiert, aber Fehlerkorrektur. Die nutzbare DAOS-Kapazität beträgt zwischen 220 und 249 PB. Auf der Supercomputer-Liste des Jahres 2024 erreichte der Aurora damit den ersten Platz.

Aktuelles eBook

Storage für HPC & KI

eBook Storage für HPC & KI
eBook „Storage für HPC & KI“
(Bild: Storage-Insider)

Speichersysteme für das HPC und für die verschiedenen Disziplinen der KI sind hohen Anforderungen ausgesetzt. Denn sie müssen enorme Datenmengen in kürzester Zeit bereitstellen oder sammeln. Wie können diese Herausforderungen gemeistert werden?

Die Themen im Überblick:

  • Aktuelle Trends in der Künstlichen Intelligenz
  • High-Performance Computing – Explosion der Innovationen
  • Künstliche Intelligenz – nahezu Echtzeit-Datenverarbeitung

(ID:50479392)