Mobile-Menu

Hohe Kapazität und Leistung Flash liefert den Datentreibstoff für KI

Ein Gastbeitrag von Axel Störmann* 7 min Lesedauer

Anbieter zum Thema

Flash ist längst eine der wichtigsten Speichertechnologien für kritische KI-Workloads, da keine andere Technologie die hohen Anforderungen an Leistung und Kapazität so gut erfüllt. Damit das so bleibt, wird Flash kontinuierlich weiterentwickelt und immer besser auf die konkreten KI-Use-Cases zugeschnitten. Mit Neuerungen wie Storage Class Memory, CXL-Support und optischen Schnittstellen taugt er sogar als DRAM-Erweiterung und ermöglicht neue Rechenzentrumdesigns.

KI stellt hohe Anforderungen an die Speicher – vor allem hinsichtlich Performance und Kapazität.(Bild:  Gemini / KI-generiert)
KI stellt hohe Anforderungen an die Speicher – vor allem hinsichtlich Performance und Kapazität.
(Bild: Gemini / KI-generiert)

Nicht nur in den USA werden dieser Tage unzählige KI-Rechenzentren errichtet, sondern auch in Europa. Hyperscaler, Cloud-Betreiber und SaaS-Anbieter bauen hierzulande neue Anlagen auf, um die wachsende Nachfrage nach Kapazitäten zu bedienen, die unabhängig von den Entwicklungen auf der anderen Seite des Atlantiks sind. Darüber hinaus investieren viele Unternehmen in eigene Rechenzentren, damit sie KI vollständig unter eigener Kontrolle trainieren und einsetzen können.

Häufig erschaffen sie auch leistungsstarke KI-Infrastrukturen direkt am Edge, also beispielsweise auf dem Shopfloor, in Distributionszentren oder in Verkaufsniederlassungen, weil Entscheidungen dort in Echtzeit gefällt werden müssen. Die Übertragung der Daten in ein zentrales Rechenzentrum oder in die Cloud wäre mit zu großen Latenzen verbunden – das Inferencing muss zwingend vor Ort stattfinden, damit Roboter, autonome Fahrzeuge und IoT-Geräte umgehend auf Ereignisse reagieren können. In anderen Use-Cases stellen die lokalen Infrastrukturen sicher, dass kritische Entscheidungen selbst dann noch möglich sind, wenn Störungen die Netzwerkverbindung beeinträchtigen.

Die Anforderungen an den Storage steigen

Neben der Rechenleistung steht beim Auf- und Ausbau all dieser Rechenzentren und Infrastrukturen ganz besonders der Speicher im Fokus: Er muss hohe Kapazität und Leistung bieten, um KI-Modelle und KI-Anwendungen zuverlässig mit Daten zu versorgen. Schließlich sind die für das Training der Modelle eingerichteten GPU-Cluster äußerst datenhungrig und sollen aufgrund der hohen Anschaffungskosten möglichst gut ausgelastet werden. Die Performance der Speicher muss daher mit der Verarbeitungsgeschwindigkeit mithalten können.

Am Edge wiederum garantieren schnelle Speicher schnelle Entscheidungen, sodass Systeme tatsächlich teil- oder vollautonom arbeiten können. Statt GPUs kommen hier häufig andere Spezialprozessoren wie NPUs (Neural Processing Units) zum Einsatz, die für die äußerst effiziente Durchführung von KI-Berechnungen konzipiert und dabei auf eine rasche sowie zuverlässige Datenbereitstellung angewiesen sind.

Neben Kapazität und Performance sind Robustheit und die Leistungsaufnahme der Speicher im KI-Zeitalter von großer Bedeutung. Die Robustheit ist vor allem in Use-Cases relevant, in denen viele Daten geschrieben werden müssen – etwa, weil sich Trainingsdaten schnell verändern oder große Datenmengen aus dem IoT aufzufangen sind. Die Leistungsaufnahme hingegen ist eigentlich immer interessant: beim Training der Modelle im Rechenzentrum, weil die GPU-Cluster bereits einen riesigen Strombedarf haben und das Power-Budget für Racks in der Regel beschränkt ist; beim Inferencing am Edge, weil viele Systeme über keine feste Stromversorgung verfügen und mit Batterien betrieben werden. Unabhängig davon stellen Stromkosten für Unternehmen aufgrund der hohen Strompreise einen nicht zu unterschätzenden Kostenblock dar und sollen trotz KI-Einführung möglichst nicht zu stark ansteigen.

Die Kontrolllogik rückt unter die Speicherzellen

Durch die schnelle und kontinuierliche Weiterentwicklung der NAND-Technologie können Flash-Speicher die wachsenden Anforderungen von KI-Workloads gut erfüllen und sind inzwischen das wichtigste Speichermedium für die Datenbereitstellung. Die Kapazitäten sind in den vergangenen Jahren geradezu explodiert – vor allem durch die Umstellung von 2D- auf 3D-NAND. Statt die Speicherzellen ausschließlich nebeneinander anzuordnen, werden sie in mehreren Lagen übereinander gestapelt, was die Speicherdichte massiv erhöht. Mehr als 200 Layer sind längst üblich. Zugleich senkt die neue Anordnung der Speicherzellen den Energiebedarf um bis zu 50 Prozent.

Darüber hinaus tragen neue CMOS-Lay-outs (Complementary Metal-Oxide-Semiconductor) dazu bei, die Speicherdichte zu erhöhen, indem sie die Kontrolllogik nicht mehr neben den Speicherzellen, sondern darunter platzieren. Ursprünglich wurden die CMOS-Schaltkreise und das Speicher-Array auf demselben Wafer produziert, doch mittlerweile werden beide getrennt gefertigt. Der große Vorteil: Die Fertigungsprozesse können unabhängig voneinander optimiert werden, sodass man bei der Array-Herstellung keine Rücksicht mehr auf die thermisch empfindlicheren CMOS-Wafer nehmen muss. Zudem können verschiedene CMOS-Technologien eingesetzt werden – je nachdem, welche Performance benötigt wird. Möglich sind derzeit Interface-Geschwindigkeiten von bis zu 4,8 Gbit/s.

Die beiden Wafer werden nach der Produktion passend zugeschnitten und dann in einem technologisch anspruchsvollen Prozess verbunden. Die Technologie wurde daher CMOS Bonded Array (CBA) getauft und bietet das Potenzial, die Speicherdichte künftig durch die Platzierung mehrerer Speicher-Arrays über der Kontrolllogik noch einmal sprunghaft zu erhöhen. Doch bereits jetzt erreicht beispielsweise KIOXIA mit der achten Generation seiner BiCS-FLASH-3D-Flash-Speichertechnologie bei TLC-NAND (Triple-Level-Cell) eine Speicherdichte von mehr als 18 Gbit pro Quadratmillimeter.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Eine Zelle speichert mehrere Bits

Neben zusätzlichen Layern sorgt auch das Speichern mehrerer Bits in einer Speicherzelle für höhere Kapazitäten bei gleichbleibendem Platzbedarf. Am gebräuchlichsten ist heutzutage TLC-NAND, der drei Bits pro Speicherzelle aufnimmt, doch wo es auf besonders hohe Kapazitäten ankommt, ist häufig schon QLC-NAND (Quad-Level-Cell) mit vier Bits pro Zelle im Einsatz. Überdies wird bereits an PLC-NAND (Penta-Level-Cell) mit fünf Bits pro Zelle gearbeitet.

Um mehr Bits in einer Zelle abzubilden, arbeitet man mit unterschiedlichen Ladungslevels. Deren Anzahl wächst mit jedem Bit exponentiell – bei SLC-NAND, der ein Bit pro Zelle speichert, sind es nur 21, also zwei Ladungslevel: Das Bit ist gesetzt oder eben nicht. Bei QLC-NAND steigt die Zahl der Ladungslevel dann schon auf 24, also 16, was eine empfindliche Elektronik mit einer leistungsstarken Fehlerkorrektur notwendig macht, um Bits zuverlässig zu schreiben und zu lesen. Das geht zu Lasten der Geschwindigkeit, weshalb TLC- und QLC-NAND üblicherweise nicht für Use-Cases mit sehr hohen Performance-Anforderungen geeignet sind – hier ist SLC-NAND (Single-Level-Cell) in der Regel die bessere Wahl.

Durch das Speichern mehrerer Bits in einer Zelle sind die einzelnen Zellen zudem größeren Schreiblasten ausgesetzt und altern schneller. Das macht insbesondere QLC-NAND für schreibintensive Workloads ungeeignet. Letztlich bestimmt also immer der konkrete Use-Case, welche NAND-Technologie zum Einsatz kommen sollte. Muss wie beim Training von KI-Modellen vor allem lesend auf große Datenmengen zugegriffen werden, genügt oft günstiger QLC-NAND. Müssen KI-Anwendungen hingegen viele Daten schreiben oder wie beim Treffen von Echtzeit-Entscheidungen am Edge extrem schnell auf Daten zugreifen, kommt eher der teurere, aber dafür performantere und robustere SLC-NAND zum Einsatz. TLC-NAND stellt wiederum einen guten Kompromiss aus Kapazität, Performance, Robustheit und Kosten dar.

Flash-Speicher entlasten den Arbeitsspeicher

Je nach Einsatzzweck statten Hersteller ihre SSDs und anderen Flash-Speicher-Produkte nicht nur mit dem optimalen NAND aus, sondern optimieren auch die Firmware. Das heißt, sie passen unter anderem die Verwaltung und Adressierung der Speicherbereiche und das sogenannte Interleaving – den wechselseitigen Zugriff auf voneinander unabhängige Speicherbereiche – so an, dass beispielsweise sehr hohe sequentielle Leseraten erreicht werden.

Auf die Spitze treibt diese Anpassungen sogenannter Storage Class Memory (SCM) wie KIOXIA XL-Flash, der hoch performanten SLC-NAND mit optimierten Seitengrößen für ein effizientes Schreiben und Lesen mit schnellen I/O-Registern als Cache kombiniert und eine Leselatenz im Bereich von wenigen Mikrosekunden bietet. Damit erreicht SCM zwar nicht die Leistungswerte von DRAM, kann diesen aber entlasten. Das kann zu erheblichen Kosteneinsparungen bei arbeitsspeicherintensiven KI-Workloads führen, da DRAM nicht nur hohe Anschaffungskosten hat, sondern auch sehr stromhungrig ist und reichlich Wärme produziert, die aufwendig abgeführt werden muss. Außerdem skaliert er nicht so gut wie NAND-Flash, sodass sich mit NAND-basierten Produkten deutlich größere Kapazitäten bereitstellen lassen.

Für eine schnelle Anbindung der Speicher an CPUs, GPUs und andere Prozessoren wird zudem nicht nur das PCIe-Protokoll weiterentwickelt. Mit CXL (Compute Express Link) etwa gibt es auch ein neues Protokoll, das auf dieselbe physische Schnittstelle wie PCIe setzen, aber Datenübertragungen mit geringerer Latenz und größerer Bandbreite erlaubt. Da CXL direkte Prozessorzugriffe auf die Speicher anderer Systeme gestattet, lassen sich die Speicherressourcen mehrerer Server in Pools vereinen und künftig wahrscheinlich sogar dedizierte Appliances mit CXL-Speichern zur Entlastung und Ergänzung von DRAM-Ressourcen einsetzen.

Künftige SSDs werden optisch angebunden

Stecken die Speicher in einer separaten Appliance, wächst allerdings die Entfernung zu den Prozessoren, sodass neue Verbindungen benötigt werden, um Daten zuverlässig zu übertragen. Ebenso werden künftige PCIe-Generationen aufgrund der hohen Datenraten und der dafür notwendigen hohen Frequenzen nach neuen Verbindungstypen verlangen – die aktuell eingesetzten Kupferverbindungen können mit ihrer hohen Dämpfung und Abstrahlung keine ausreichend hohe Signalintegrität mehr garantieren. SSD-Anbieter arbeiten daher an Speicherprodukten mit optischen Schnittstellen.

Axel Störmann, Vice President and Chief Technology Officer of Memory and SSD Products bei KIOXIA Europe.(Bild:  KIOXIA)
Axel Störmann, Vice President and Chief Technology Officer of Memory and SSD Products bei KIOXIA Europe.
(Bild: KIOXIA)

Mit optischen SSDs ergeben sich dann ganz neue Möglichkeiten beim Design von Serverräumen und Rechenzentren, denn die Speichersysteme müssen sich nicht mehr notwendigerweise im selben Rack oder Raum wie die Server befinden. In Demonstrationen wurden bereits 40 Meter überbrückt, und künftig sollen es sogar bis zu 100 Meter werden. Damit lassen sich Compute- und Storage-Ressourcen räumlich komplett trennen, um Stromversorgung und Kühlung zu optimieren. Daran und an anderen Verbesserungen arbeiten etwa KIOXIA und andere japanische Hersteller im „Next Generation Green Data Center Technology Development“-Projekt der japanischen New Energy and Industrial Technology Development Organization (NEDO). Dessen Ziel: den Energiebedarf von Rechenzentren um mehr als 40 Prozent reduzieren.

* Der Autor: Axel Störmann ist Vice President and Chief Technology Officer of Memory and SSD Products bei KIOXIA Europe.

Aktuelles E-Book

All-Flash-Arrays mit NVMe – eine Chance für neue Use Cases

 E-Book All-Flash-Arrays mit NVMe
E-Book „All-Flash-Arrays mit NVMe“
(Bild: Storage-Insider)

Gegenüber herkömmlichen drehenden Festplatten setzen sich zunehmend mit SSDs bestückte Flash-Systeme durch und punkten im Verbund mit NVMe vor allem durch hohe Geschwindigkeit. Wann lohnt sich der Einsatz eines All-Flash-Arrays im Unternehmen? Und welches System ist das passende? Diese und weitere Fragen beantwortet unser neues, kostenloses E-Book.

Die Themen im Überblick:

  • Technologische Grundlagen: Was ist NVMe-Flash?
  • Use Cases: Wann lohnt sich ein NVMe-Array fürs Unternehmen?
  • Anbieter und Produkte: NVMe-AFAs

(ID:50846761)