Memcomputing und analoges Kalkulieren Rechnen mit Speicherzellen

Autor / Redakteur: Anna Kobylinska und Filipe Martins* / Ulrike Ostler

Konventionelle Chip-Architekturen mit Logikgattern auf der Basis von Boolescher Algebra tun sich schwer mit Optimierungsproblemen. Quantencomputing ist für viele Anwendungen noch eine Nummer zu groß. Doch Abhilfe ist bereits in Sicht: Speicherzellen wollen lernen, zu rechnen. Anbieter wie Mythic machen es vor.

Der Chip M1076 AMP von Mythic, hier auf einer PCIe-Karte, kann bis zu 35 Billionen Operationen pro Sekunde (TOPS) in analogen NVM-Speicherzellen bewältigen und benötigt hierfür gerade einmal schlanke 3 Watt an Energie.
Der Chip M1076 AMP von Mythic, hier auf einer PCIe-Karte, kann bis zu 35 Billionen Operationen pro Sekunde (TOPS) in analogen NVM-Speicherzellen bewältigen und benötigt hierfür gerade einmal schlanke 3 Watt an Energie.
(Bild: Mythic)

Kognitives Computing will sich von der Handbremse der von-Neumannschen Architektur lösen, um die Umsetzung tiefer neuronaler Netze direkt in Hardware zu verwirklichen. Der enorme Leistungssprung, der damit einher geht, dürfte völlig neue Anwendungsmöglichkeiten eröffnen.

Erste handfeste Lösungen sind bereits da.

Memcomputing auf dem Vormarsch

Aufgrund der großen Entfernung zwischen Onshore-Stützpunkten und Offshore-Anlagen müssen die meisten Ölkonzerne ihre Mitarbeiter und kleinere Fracht per Hubschrauber anfliegen lassen. In der Optimierung der Flugstrecken schlummert ein beachtliches Potenzial für geringere Kosten, eine Reduktion der Umweltbelastung, mehr Agilität und dergleichen andere.

Doch ein kombinatorisches Problem mit derart vielen Variablen wie die Hubschrauberlogistik einer Bohrinsel sprengt die Rechenleistung der stärksten Supercomputer. Die Berechnungen können ja nicht länger dauern, als es dafür Zeit gibt, und dürfen nicht mehr kosten, als sie einsparen.

Memcomputing, mehrfach preisgekrönter Anbieter disruptiver HPC-Lösungen aus dem südkalifornischen San Diego, will mit den so genannten Digital Memcomputing Machines (kurz DMMs) Quantencomputing-Anbietern ein Schnippchen schlagen.

Interagierende Speicherzellen

Der Begriff Memcomputing bezeichnet ein neuartiges nicht-Turinisches Rechenparadigma, bei dem interagierende Speicherzellen, die so genannten Memprozessoren, zur Speicherung und Verarbeitung von Informationen auf derselben physischen Plattform zum Einsatz kommen. (Das Mem ist eine Maßeinheit für die Anzahl von Speicherzugriffen.)

Das Zusammenführen der Ressourcentypen Compute und Arbeitsspeicher – die in einer konventionellen von-Neumannschen Systemarchitektur voneinander getrennt sind – erlaubt die Umsetzung selbstorganisierender Logikgatter, der sogenannten SOLGs (kurz für Self-Organizing Logic Gates).

Dort, wo anstelle herkömmlicher Logikgatter SOLGs zum Einsatz kommen, entsteht eine selbstorganisierende Logikschaltung (Self-Organizing Logic Circuit, kurz: SOLC). Die dynamische, kollektive Selbstorganisation der SOLGs in einem SOLC ermöglicht es jener Schaltung, von jedem beliebigen Zustand aus in Gleichgewichtspunkte zu konvergieren. Die Gleichgewichtspunkte stellen entweder die exakte Lösung eines Entscheidungsproblems oder eine Annäherung an das globale Optimum bei Optimierungsproblemen dar.

Optimierung als Physikaufgabe

Memcomputing konvertiert ein kombinatorisches Optimierungsproblem in eine Aufgabe der klassischen Physik. Die aktuelle Iteration der Technologie, die so genannte VMM (mehr dazu weiter unten), schlägt sich bereits tapfer bei industriellen Optimierungsaufgaben, der Big-Data-Analyse und maschinellem Lernen.

Sie sei „die erste und einzige Nicht-Quantenlösung, die nachweislich die Leistung von Quantencomputern“ bereits erreiche. Zu den Kunden zählen so renommierte Organisationen wie die Nationale Aeronautik- und Raumfahrtbehörde der Vereinigten Staaten, NASA.

Memcomputing will mit diesem Ansatz die Leistung eines Quantencomputers demnächst auch möglicherweise schlagen. Denn anders als quantenmechanische Phänomena lassen sich klassische Phänomena auf Systemen mit Boolescher Logik in Software simulieren.

Hier liegt aber auch der Haken an der Sache: Das Unternehmen hat es bisher noch nicht auf die Reihe gebracht, eine neuromorphische Schaltung in Hardware umzusetzen.

Virtual Memcomputing Machine

Die VMM, kurz für Virtual Memcomputing Machine, ist eine reine Software-Simulation neuromorphischer Chips, eine Art kommerzielle Machbarkeitsstudie. Sie ist unter anderem als ein SaaS-Dienst zugänglich, der sich intern eine neuartige Systemarchitektur mit einem patentierten Co-Prozessor, der GPU-beschleunigten MemCPU, auf der Basis von klassischen Transistoren zu Nutze macht.

Was die Hardware anbetrifft, sind andere da schon ein paar Schritte weiter. Zum Beispiel eben Mythic.

Mythic M1076 AMP

Eine aufstrebende Chip-Schmiede aus dem kalifornischen Redwood City und dem texanischen Austin namens Mythic hat sich vorgenommen, ein neuronales Netz mit einer Billion von Synapsen zu bauen. Der Chip soll bis zu hundert Billionen analogen Operationen pro Sekunde bei einer extrem geringen Latenz und mit geringem Energieverbrauch ausführen können – wenn es mal so weit kommt.

Aus Spaß wird Ernst: Mythic, eine aufstrebende Chip-Schmiede aus dem kalifornischen Redwood City und dem texanischen Austin, hat seine Speicherzellen für analoges Computing ausgelegt und schaut nicht nach hinten. Das Ganze begann aus Spaß an der Universität Michigan. In der Abbildung: das erste Team.
Aus Spaß wird Ernst: Mythic, eine aufstrebende Chip-Schmiede aus dem kalifornischen Redwood City und dem texanischen Austin, hat seine Speicherzellen für analoges Computing ausgelegt und schaut nicht nach hinten. Das Ganze begann aus Spaß an der Universität Michigan. In der Abbildung: das erste Team.
(Bild: Mythic)

In der Zwischenzeit hat Mythic einen Vorläufer in Serie hinbekommen. Mit dem „M1076 AMP“ (kurz für Analog Matrix Processor) lancierte das Unternehmen im Juni 2021 den ersten analogen KI-Chip seiner Art.

Der M1076 AMP von Mythic kann bis zu 35 Billionen Operationen pro Sekunde (TOPS) in analogen NVM-Speicherzellen bewältigen und benötigt hierfür gerade einmal magere 3 Watt an Energie. Als eine kompakte PCIe-Karte im M.2-Formfaktor kann sich der KI-Chip sowohl in Nutzungsszenarien der intelligenten Edge als auch in Servern im Kern-Datacenter einbringen. 16 dieser AMPs lassen sich auf einer einzigen PCIe-Karte verschalten, um bis zu 400 TOPS und 1,28 Milliarden neuronale Netzgewichte bei einer Gesamtleistungsaufnahme von nur 75 W zu erreichen.

Mythic adressiert mit dem Chip in erster Linie eingebettete KI-Anwendungen in Energie-armen IoT-Endpunkten an der Edge, die sich durch arg begrenzten Platz auszeichnen, aber möchte auch bei KI-Arbeitslasten im Rechenzentrum Fuß fassen. Das Unternehmen nimmt hierbei mehrere vertikale Märkte ins Visier, von Smart Citys über die Industrie 4.0, Elektronik der Verbraucherklasse bis hin zur Enterprise-IT.

Schematische Darstellung einer Systemarchitektur, die analoge Berechnungen in Speicherzellen durchführen kann.
Schematische Darstellung einer Systemarchitektur, die analoge Berechnungen in Speicherzellen durchführen kann.
(Bild: Mythic)

Die analoge Architektur von Mythic schlägt alternative digitale Lösungen im Hinblick auf die Kosten und Leistungsaufnahme um den Faktor zehn – und das sei erst der Anfang. Um die Vision von Billionen von Synapsen zu verwirklichen, seien die Umsetzung analoger Berechnungen in NAND-Flash und RRAM sowie die Integration der 3D-Speichertechnologie mit fortschrittlichen Chip-Prozessen erforderlich.

Die aktuellen Produkte von Mythic basieren auf NOR-Flash, aber immerhin: Er rechnet in Speicherzellen.

Eine Speicherzelle ist die physische Umsetzung eines Speicherelementes. Je nach Speichertechnologie sind die Speicherzellen unterschiedlich konzipiert und unterschiedlich angeordnet: etwa reihenweise hintereinander, parallel oder auf einer Matrix.

Die praktische Umsetzung neuronaler Netze mit Speicherzellen in Hardware stößt auf eine Vielzahl verzwickter Herausforderungen. Auch Mythic musste für seine Vision alle gängigen Annahmen über Bord werfen.

Zurück zum Reißbrett

Eine praxistaugliche KI-Engine benötigt eine große Anzahl an künstlichen Neuronen, und diese müssen ja auch absolut latenzfrei und energiesparend über die vielen Synapsen miteinander interagieren können. Speicherzellen machen dies ja auch im Prinzip möglich; der Teufel steckt im Detail.

Der einzige gängige Digitalspeicher mit der Fähigkeit, Lesevorgänge hinreichend energieeffizient auszuführen, um sich für den Einsatz in einem neuronalen Netz zu qualifizieren, und der nebenbei auch noch schnell genug ist, um die hierzu erforderlichen latenzfreien Berechnungen zu bewältigen, ist SRAM.

Der beschränkende Faktor ist die geringe Leistungsdichte von SRAM. Ein weiteres Hindernis stellt die hohe Verlustleistung dar. Auch der Kostenpunkt stimmt nicht.

Verbesserungen der Leistungsdichte von Transistoren für CPU-Kerne versus NAND-Flash: Die Leistungsdichte von Speicherzellen in NAND-Flash folgt seit Jahren einer exponentiellen Wachstumskurve.
Verbesserungen der Leistungsdichte von Transistoren für CPU-Kerne versus NAND-Flash: Die Leistungsdichte von Speicherzellen in NAND-Flash folgt seit Jahren einer exponentiellen Wachstumskurve.
(Bild: Mythic)

Flüchtiger Arbeitsspeicher – ob statisches SRAM oder dynamisches DRAM – zeichnet sich durch eine relativ geringe Leistungsdichte aus und verbraucht vergleichsweise viel Energie. Die großen Aussichten auf einen Durchbruch in der Weiterentwicklung der Technologie sind größtenteils ausgeblieben, und auch am Horizont geben sich keine Hoffnungsträger zu erkennen.

Im Gegensatz dazu bricht nichtflüchtiger Speicher (Non-Volatile Memory, kurz: NVM) einen Rekord der Leistungsdichte nach dem anderen. NVM trumpft zudem mit der Eigenschaft der Null-Strom-Retention und löst damit das Leckstromproblem der Verlustleistung (die sich bei SRAM nur mit Mühe und Not im Zaum halten lässt).

Die heute am weitesten verbreitete nichtflüchtige Speichertechnologie ist Flash mit über 100 Exabytes an ausgelieferter Gesamtkapazität. Flash (korrekte Bezeichnung: Flash-EEPROM, kurz für Electrically Erasable Programmable Read-Only Memory) speichert Informationen als elektrische Ladungen auf einem Floating-Gate oder in einem Charge-Trapping-Speicherelement eines MISFETS (eines Metall-Isolator-Halbleiter-Feldeffekttransistors (englisch: Metal Isolator Solid State Field Effect Transistor) dauerhaft und ohne Erhaltungsenergieverbrauch, also auch ein Pluspunkt.

Persistente Flash-Speicher

Zum Beschreiben des persistenten Flash-Speichers müssen ortsfest gehaltene elektrische Ladungen in völliger elektrischer Isolation von anderen Teilen geändert werden. Diese Änderung des Ladungszustands ist nur durch den quantenmechanischen Tunneleffekt möglich (den so genannten Fowler-Nordheim-Tunneleffekt); erst dann können Elektronen die hohe Potentialbarriere des Nichtleiters der Isolationsschicht passieren.

Die modernsten Flash-Systeme haben 176 Schichten und können bis zu 100 Gigabyte (GB) pro Quadratmillimeter an Daten aufbewahren; das entspricht etwa dem Querschnitt einer Bleistiftmine. Zwei Terabyte (TB) passen auf einen Radiergummi – und die Dichte wächst weiter.

Das Aufkommen analoger Speicherzellen

Auch andere nichtflüchtige Speicher wie RRAM (Resistive Random Access Memory) zeigen großes Potenzial; sie lassen sich sehr dicht in drei Dimensionen aufbauen, zum Beispiel 3D Xpoint, Billionen Mal wieder beschreiben und können mehrstufige Werte für analoge Berechnungen speichern.

RRAM ist eine Form nichtflüchtigen Speichers, der sich den Widerstand eines speziell formulierten Materials zu Nutze macht. Doch RRAM ist resistiv eben und kann die Ausgangsleitungen nicht aktiv ansteuern wie SRAM oder über auf riesige Kondensatoren zurückgreifen wie DRAM.

Einige Anbieter experimentieren mit integrierten 3D-Schaltkreisen mit vielen Schichten eines Leckage-freien nichtflüchtigen Speichers (NVM) oberhalb von Kernrechenmodulen. Diese Technologie zählt zu den größten Hoffnungsträgern für die Umsetzung von KI-Engines, da sie die Probleme der Speicherdichte und der Leckagen löst und Billionen von Synapsen in einem kleinen Chip unterbringen kann.

Digitale Berechnungen in einem solchen Gewebe von künstlichen Neuronen führen jedoch zu erheblichen Engpässen. Das hat im Endeffekt eine geringe Leistung und einen hohen Energieverbrauch zur Folge.

Ergänzendes zum Thema
Das Fazit des Autorenduos

Das Verschmelzen von Compute und Speicherzellen soll den von-Neumannschen Flaschenhals zu guter Letzt aufheben und KI-Arbeitslasten einen kräftigen Performancesprung verleihen. In-Memory-Berechnungen machen sich Speicherzellen als analoge Schaltungen zu Nutze.

Durch geringfügige Anpassungen der Eigenschaften einzelner Speicherzellen ist es möglich, eine Schaltung speziell für die gewünschte Berechnung zu konstruieren. Analoges Rechnen in Speicherzellen macht Embedded-KI schon heute im großen Maßstab möglich.

Digitale KI-Prozessoren lesen die Gewichte und die Eingabe aus dem Arbeitsspeicher aus und übermitteln sie an die betreffenden Recheneinheiten. Selbst beim Einsatz von konventionellem Arbeitsspeicher wie SRAM stellt dieser Rechenweg einen nicht unerheblichen Leistungs- und Energieengpass dar. Die geringe Leistungsdichte von RAM verspricht bei dem Ansatz nur wenig Erfolg.

Mit einem ultradichten nichtflüchtigen Speicher ließe sich die benötigte Anzahl der Synapsen durchaus bereitstellen, glauben die Ingenieure von Mythic. Die eigentliche Herausforderung bestehe in diesem Fall darin, aus diesen extrem dichten Arrays Daten abzurufen und schnell genug auszuwerten. Bei digitalen Berechnungen seien die Leistungsengpässe der Architektur eines solchen Chips gar „unüberwindbar“. Denn NVM rechne im digitalen Modus schneckenlangsam und verschwende Energie.

Bevor ein analoger AMP-Chip zu Werke schreitet, müssen Entwickler tätig werden: So entstehen Binärdateien, die das Gewebe aus Speicherzellen für seine Aufgabe programmieren.
Bevor ein analoger AMP-Chip zu Werke schreitet, müssen Entwickler tätig werden: So entstehen Binärdateien, die das Gewebe aus Speicherzellen für seine Aufgabe programmieren.
(Bild: Mythic)

Die Lösung lag für Mythic in der Erkenntnis, dass digitale Rechenleistung „zu viel des Guten“ sei. Das Unternehmen hat sich entschieden, NVM-Speicherzellen für analoge Berechnungen zu konfigurieren.

Mit dem M1076 AMP (kurz für Analog Matrix Processor) hat das Unternehmen seit Juni 2021 einen eben solchen KI-Chip im Portfolio, einsatzfertig auf einer PCIe-Karte. Der AMP ermöglicht schon heute geräteinternes Lernen an der Edge, schnelle Anwendungswechsel und das Training analoger neuronaler Netze im großen Maßstab.

Computing im analogen Speichergewebe

Konventionelle Systemarchitekturen tun sich schwer mit Optimierungsproblemen. Denn mit einer linear steigenden Anzahl von Variablen nimmt die Rechenzeit binärer Recheneinheiten exponentiell zu.

Herkömmliche Computer arbeiten rein digital: Sie speichern und manipulieren Datenwerte in Form von binären Darstellungen und schieben diese zwischen der CPU/GPU und dem Arbeitsspeicher hin und her.

Mit dem Aufkommen von KI-Arbeitslasten wächst der Aufwand der „Datenlogistik“ zwischen CPU und Arbeitsspeicher exponentiell. Die wirtschaftlichen Anreize, einen besseren Ansatz zu finden, sind daher enorm.

Mechanische und elektrische Vorgänge

Analoges Computing macht sich eine andere Darstellung von numerischen Werten als ein Digitalrechner zu Nutze: Anstelle mit diskreten Werten zu hantieren, bildet analoges Computing kontinuierliche mechanische oder elektrische Vorgänge – Spannungspegel, Ladungspegel oder andere – in analogen Speicherzellen ab. Ein solches Gewebe von Speicherzellen kann massiv parallele Operationen durchführen, darunter auch Matrizenberechnungen, die zum Trainieren und Ausführen tiefer neuronaler Netze (DNN) erforderlich sind.

Analoge Schaltkreise handhaben analoge Berechnungen direkt in den Speicherzellen im Speichergewebe. So müssen die Daten nicht erst zu einer CPU hin- und dann wieder hergeschoben werden. Da jede Berechnung direkt im Speicher erfolgt, gibt es keine Leistungseinbußen durch das Hin- und Herschieben von Daten. Laut IBM soll analoges Computing digitale Chips bei KI-Arbeitslasten um den Faktor hundert (100x) schlagen können.

IBM-Memristoren

IBMs eigene Implementierung von analogem Computing in Speicherzellen nutzt die Memristor-Technologie, die vierte grundlegende Schaltungseinheit neben Widerständen, Kondensatoren und Induktoren. IBM verwendet memristiven Phasenwechselspeicher (PCM) oder resistiven Speicher (ReRAM), um die analogen synaptischen Gewichte eines DNNs zu speichern. Schaltkreise auf dem Chip führen die gewünschten Berechnungen mit analogen Werten durch (darunter die Vorwärtspropagation für die DNN-Inferenz und die zusätzliche Rückwärtspropagation für die Aktualisierung der Gewichtung beim Training).

IBM plant die Integration analoger Compute-Engines als Ergänzung zu traditionellen digitalen Recheneinheiten. Eine analoge In-Memory-Engine könnte die groß angelegten DNN-Berechnungen in Zusammenarbeit mit herkömmlichen CPUs durchführen.

Der „Blaue Riese“ hat kürzlich digitale Halbleiterbeschleuniger für KI-Arbeitslasten als Teil des Telum-Prozessors mit einem Rechenkern mit reduzierter Genauigkeit für die nächste Generation von „Z-Systems“ angekündigt. In dieser Architektur wäre auch die Umsetzung analoger KI-Beschleuniger denkbar.

(ID:47765697)