Mobile-Menu

NAND, SCM und DRAM Flash schließt die Lücke zwischen Storage und Memory

Ein Gastbeitrag von Axel Störmann* 6 min Lesedauer

Anbieter zum Thema

Wachsende Datenmengen, die schnell verarbeitet werden müssen, erhöhen die Anforderungen an die Kapazität, die Bandbreite und die Latenz von Speichern. Oft stehen Unternehmen vor einem Dilemma: Die Performance der Massenspeicher reicht nicht mehr aus, doch leistungsstarker Arbeitsspeicher ist teuer und skaliert nicht gut. Abhilfe könnten bald Flash-basierte Lösungen mit CXL-Support schaffen, die die Lücke zwischen klassischem Flash und DRAM schließen.

Insbesondere KI macht die schnelle Verarbeitung immer größerer Datenmengen erforderlich.(Bild:  ©agsandrew, Getty Images via Canva.com)
Insbesondere KI macht die schnelle Verarbeitung immer größerer Datenmengen erforderlich.
(Bild: ©agsandrew, Getty Images via Canva.com)

Ein extrem schneller, nichtflüchtiger Speicher mit hoher Kapazität und geringem Platzbedarf, der noch dazu preiswert ist – das wäre wahrlich perfekt. Leider gibt es einen solchen Speicher in der Realität nicht, denn Spitzenleistung geht mit hohen Kosten einher, sodass die Kapazitäten eher gering ausfallen. Zudem speichern schnelle Speicher wie DRAM die Daten nur flüchtig, also solange sie mit Strom versorgt werden. Würde man sie zur dauerhaften Aufbewahrung einsetzen, müsste man sie mit Batteriepuffern aufwendig absichern, um Datenverluste zu verhindern. Geringe Performance hingegen geht mit geringerem Platzbedarf und einer besseren Skalierung einher, sodass langsame Speicher hohe Kapazitäten zu günstigen Kosten bereitstellen können, und das nichtflüchtig.

Zwischen diesen beiden Extremen gibt es verschiedene Abstufungen, die üblicherweise in Form einer Pyramide dargestellt werden, wobei schnelles SRAM die Spitze und große Festplatten die Basis bilden. Dazwischen sind meist DRAM, Storage Class Memory (SCM) und NAND-Flash angesiedelt, wobei bei letzterem noch zwischen TLC- und QLC-NAND unterschieden werden kann. TLC speichert drei Bit pro Speicherzelle und ist inzwischen der Standard für kostengünstige Flash-Speicher im Consumer-, Industrie- sowie Automotive-Bereich. QLC bietet mit vier Bits pro Zelle höhere Kapazitäten, ist aber nicht ganz so robust und performant.

Bislang konnten die unterschiedlichen Anforderungen der Datenspeicherung und Datenverarbeitung mit diesem breiten Angebot an Speichern gut bedient werden, doch das ändert sich gerade. Insbesondere KI macht die schnelle Verarbeitung immer größerer Datenmengen erforderlich, sodass die verfügbaren Lösungen mittlerweile an ihre Grenzen gelangen: Speicher mit hoher Kapazität können die Daten nicht schnell genug bereitstellen, während Speicher mit großer Bandbreite und geringer Latenz keine ausreichenden Kapazitäten bieten. Gebraucht werden neue Lösungen, die hohe Kapazitäten mit hoher Leistung vereinen und sich in der Speicherpyramide zwischen DRAM und Flash einsortieren.

Weiterentwicklung von DRAM und Flash

Im Grunde müssen diese neuen Lösungen aus dem Flash-Bereich kommen. Zwar wird auch DRAM weiterentwickelt, doch große Kapazitätssprünge sind hier in den nächsten Jahren unwahrscheinlich. Aktuell wird damit experimentiert, DRAM-Zellen übereinander anzuordnen – allerdings handelt es sich eher um ein Stapeln planarer Strukturen und noch keine richtigen 3D-Strukturen wie bei Flash. Dort hat die Umstellung von Floating-Gate- auf Charge-Trap-Zellen, die durch einen etwas anderen Aufbau und andere Materialien kleiner ausfallen, höhere Speicherdichten und auch schnellere Schreib- und Lesevorgängen ermöglicht. Hinzu kommen neue Layouts, bei denen die Kontrolllogik unter dem Speicher-Array platziert ist oder separat von diesem gefertigt und erst später verbunden wird, sodass sich Speicherzellen und Arrays besser stapeln lassen. Diese Technologie wird CMOS Bonded Array (CBA) genannt.

Da DRAM zudem sehr teuer und ein flüchtiger Speicher ist, bleibt nur die Weiterentwicklung von Flash, um die gestiegenen Anforderungen zu erfüllen. Wie aber die Bandbreiten weiter erhöhen und die Latenz weiter senken? Mit SCM-Technologien wie dem von KIOXIA entwickelte XL-Flash ist das schon ein Stück weit gelungen. Die Speicher basieren auf hoch performantem SLC-NAND mit schnellen I/O-Registern als Cache und optimierten Seitengrößen für effizientes Schreiben und Lesen – die Leselatenz liegt bei wenigen Mikrosekunden.

Für viele Anwendungsfälle reicht das aber noch nicht, etwa bei vielen Echtzeit-Entscheidungen von KI-Systemen, aber auch in großen Rechenzentren, deren Betreiber die Speicherressourcen in Pools zusammenfassen wollen, um sie optimal auszulasten. Dabei müssen Daten über die Grenzen von Speicherkomponenten und Geräten hinweg organisiert und gezielt angesprochen werden können, was nur mit äußerst geringen Latenzen effizient funktioniert. Andernfalls würde die Verwaltung der Speicher und Daten die Performance des Speicherpools zu sehr ausbremsen.

Schnellere Speicherzugriffe mit CXL

Um die Zugriffe auf Speicher noch weiter zu beschleunigen, wird deshalb nicht nur PCIe weiterentwickelt, sondern auch an neueren Standards wie CXL (Compute Express Link) gearbeitet. CXL nutzt dieselbe physische Schnittstelle wie PCIe, erlaubt aber schnellere Datenübertragungen. Ursprünglich für die DRAM-Anbindung gedacht, damit Daten aus dem Arbeitsspeicher schnell zur CPU oder GPU gelangen, eignen sich die beiden im Standard definierten Protokolle CXL.io und CXL.mem auch für die Anbindung nichtflüchtiger Speicher. CXL.io erweitert das PCIe-Protokoll und kümmert sich unter anderem um die Geräteerkennung, die Initialisierung und Verwaltung der Verbindung sowie kohärente Schreib- und Lesezugriffe. CXL.mem ermöglicht der Host-CPU, auf den Speicher von CXL-Geräten zuzugreifen, so wie sie sonst auf CPU-nahe Speicher zugreift.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

CXL bietet eine äußerst geringe Latenz und ermöglicht durch seine Unterstützung von direkten Zugriffen der CPU auf die Speicher anderer Systeme auch den Aufbau von effizienten Speicherpools, die mehrere Systeme gemeinsam nutzen. In diesen Pools lassen sich die Speicherressourcen einzelner Server vereinen – es sind aber auch dedizierte Appliances mit CXL-Speichern vorstellbar, die den DRAM der Server ergänzen. Die Server selbst bräuchten dann nur mit vergleichsweise wenig DRAM ausgestattet werden, was sowohl die Anschaffungskosten als auch die Betriebskosten reduziert. Schließlich ist DRAM sehr energiehungrig und produziert viel Wärme, die aufwendig abgeführt werden muss.

Erste Proofs-of-Concept neuer Speicherprodukte

Flash-basierte Speicherprodukte mit CXL-Support schließen die Lücke zwischen Memory und Storage, indem sie einen extrem latenzarmen, leistungsfähigen Speicher bereitstellen, der höhere Kapazitäten als DRAM zu geringeren Kosten bietet. Bei der Entwicklung arbeiten die Anbieter von Speicherkomponenten eng mit Plattformbetreibern, Server-Herstellern und Endkunden zusammen, um die neuen Speicher perfekt auf die Anforderungen zuzuschneiden und das Zusammenspiel mit anderen Komponenten – insbesondere CPUs und GPUs – zu optimieren.

Wie solche Speicher aussehen können, zeigen beispielhaft zwei Proofs-of-Concept von KIOXIA. Der eine setzt auf TLC-NAND und ist für Anwendungsfälle vorgesehen, bei denen neben geringer Latenz und hohen Datenleseraten eine sehr gute Skalierung benötigt wird, um hohe Kapazitätsanforderungen zu erfüllen – etwa beim Training großer KI-Modelle, die nicht in den Arbeitsspeicher eines einzelnen Systems passen. Der CXL-Speicher könnte das System preiswert um einen latenzarmen Speicher hoher Kapazität erweitern oder den Aufbau eines Speicherpools über mehrere Systeme hinweg ermöglichen. Via PCIe war so etwas bislang nur sehr eingeschränkt realisierbar, da das Umlagern der Daten von einem System zum anderen für nicht hinnehmbare Verzögerungen sorgte.

Axel Störmann, Vice President und CTO SSD & Memory Products bei KIOXIA Europe.(Bild:  KIOXIA)
Axel Störmann, Vice President und CTO SSD & Memory Products bei KIOXIA Europe.
(Bild: KIOXIA)

Der andere PoC setzt auf XL-Flash und bietet dadurch eine noch höhere Performance, wie sie etwa beim schnellen KI-Inferencing auf Endgeräten oder am Edge benötigt wird. Dort müssen zum Beispiel autonome Fahrzeuge in kritischen Situationen sofort stoppen oder Ventile umgehend geschlossen werden, wenn Überwachungskameras oder Drucksensoren ein Leitungsleck entdecken. Ebenso ist ein solcher Speicher gut für das Pooling von Speicherressourcen in großen Rechenzentren geeignet, wo er DRAM zwar nicht ersetzen, aber sinnvoll ergänzen kann, da er eine skalierbare und kostengünstige Alternative mit hoher Lese- und Schreibperformance darstellt. Das würde ein enormes Problem der Branche lösen, die nach immer größeren Speichern mit extrem niedriger Latenz und hohem Datendurchsatz zu möglichst geringen Kosten sucht – und nach Wegen, diese optimal auszulasten.

* Der Autor: Axel Störmann ist Vice President und CTO SSD & Memory Products bei KIOXIA Europe

Aktuelles eBook

Storage für HPC & KI

eBook Storage für HPC & KI
eBook „Storage für HPC & KI“
(Bild: Storage-Insider)

Speichersysteme für das HPC und für die verschiedenen Disziplinen der KI sind hohen Anforderungen ausgesetzt. Denn sie müssen enorme Datenmengen in kürzester Zeit bereitstellen oder sammeln. Wie können diese Herausforderungen gemeistert werden?

Die Themen im Überblick:

  • Aktuelle Trends in der Künstlichen Intelligenz
  • High-Performance Computing – Explosion der Innovationen
  • Künstliche Intelligenz – nahezu Echtzeit-Datenverarbeitung

(ID:50029043)