Hohe Skalierbarkeit, höchste Performance und niedrige Kosten lassen sich nicht korrelieren? Mit XIV startet IBM seinen Paradigmenwechsel in die Scale-Out-Speichertechnik

Autor / Redakteur: Hartmut Wiehr / Rainer Graefen

Anwender hatten bislang beim Speichern die Wahl, entweder modulare Speichersysteme zu kaufen und diese dann mit der auflaufenden Datenmenge zu korrelieren, oder mit einem teuren Highend-System mit Thin-Provisioning-Funktion die Kontrolle über die Performance zu behalten. Grid Storage ist der Versuch Wachstumsanforderungen, Verfügbarkeit, Leistungsfähigkeit und Kosten unter einen Hut zu bekommen. IBM will mit XIV diesen Schritt wagen,

Firma zum Thema

IBMs Grid-Storage-Ansatz XIV.
IBMs Grid-Storage-Ansatz XIV.
( Archiv: Vogel Business Media )

IBM verfügt nach einigen Turbulenzen über ein funktionierendes und am Markt etabliertes Portfolio von Speicher-Arrays für den Enterprise-Bereich. Dennoch hat man es sich 2008 nicht nehmen lassen, das israelische Startup XIV mit seinem Nextra-Produkt zu übernehmen. Das im August 2008 mehr klammheimlich auf Nextra-Basis angekündigte neue Produkt „XIV Storage System“ soll für unstrukturierte Daten und Web-2.0-Anwendungen geeignet sein.

IBM legte sich darauf fest, die XIV sei irgendwo zwischen der DS4000 und der DS8000 zu positionieren. Andererseits heißt es, es handele sich um ein reines Highend-Produkt, allerdings ohne Fibre Channel. Doch wer braucht ein solches Produkt? Am Markt herrscht eine gewisse Konfusion angesichts der neuen Produktlinie. IBM selbst tut nicht besonders viel, um für Aufklärung zu sorgen.

Erst Highend, jetzt Grid Storage

Der Gründer und technische Kopf von XIV, Moshe Yanai, hat sich in der Vergangenheit einen Ruf als Erfinder des Highend-Speichergerätes Symmetrix von EMC erworben. EMC hat damit sehr viel Geld verdient, und Yanai offenbar auch, da er jahrelang für jede verkaufte Symmetrix einen prozentualen Anteil bekam.

Als er im Streit von EMC wegging, reichte das allemal für ein bekömmliches Auskommen und die Gründung eines neuen Unternehmens in Israel – „XIV“ (eine Anspielung auf einen Universitätsjahrgang, aus dem besonders viele erfolgreiche IT-Entwickler hervorgingen, die teils in der Industrie und teils in der Armee Israels landeten oder in beiden Sphären).

Während EMC und ein Teil der US-Analysten sehr schnell begannen, mit zweifelhaften Argumenten und Unterstellungen gegen IBMs XIV zu schießen – so zum Beispiel der EMC-Mitarbeiter Barry A. Burke in seinem halb-offiziellen Blog „The Storage Anarchist“ [1] –, setzt IBM mehr still und leise auf bewährte Verkaufskanäle und Kundenkontakte.

Die early Adaptors mögens billiger

Seit letzten Sommer sollen bereits weltweit über 200 voll ausgebaute Systeme verkauft sein, wie Senior Storage Architect Stefan Radke versichert. Und das bei offiziellen Listenpreisen von etwa 500.000 bis 1.000.000 Million Euro, was Radke für „preisgünstig“ hält. Gemessen an IBMs Preisvorstellungen bei der DS8000, bei der der Anwender bei etwa der gleichen Ausbaustufe von 79 Terabyte Nettokapazität – allerdings mit Fibre-Channel-Platten – ca. 3,5 Millionen Euro Listenpreis hinblättern muss, mag man das vielleicht so sehen.

Doch selbst wenn man Rabatte von 30 Prozent und mehr abzieht, dürfte es sich bei der XIV kaum um ein Angebot für den Mittelstand handeln. Auf jeden Fall sind nun genügend Produkte im praktischen (Enterprise-)Einsatz, um weitere Testergebnisse und Feedback von Anwenderseite einzusammeln. IBM gewinnt so auch Zeit, sich aus dem selbst geschaffenen Dilemma, nun gleich zwei Highend-Lösungen für Storage im Angebot zu haben, zu befreien und das XIV Storage System besser gegen die DS8000 aufzustellen.

Mit Standardkomponenten Highend-Storage bauen

weiter mit: Mit Standardkomponenten Highend-Storage bauen

Der Anspruch: Mit Standardkomponenten Highend-Storage bauen

Neben den Ansätzen von 3PAR und Compellent gilt die Architektur von XIV insofern als bahnbrechend, als Yanai auf Standardkomponenten und gleichzeitig auf hohe Verfügbarkeit setzte.

IBM spricht von einem notwendigen Paradigmenwechsel, da speziell für schnell wachsende Datenmengen keine geeigneten SAN- oder NAS-Infrastrukturen vorhanden seien: „Das explodierende Speicherwachstum in den Firmen hat die Schwächen von traditionellen System-Architekturen offen gelegt:

  • Fast alle Systeme basieren auf Spezial-Entwicklungen und sind deshalb teuer.
  • Die übliche Dual-Controller Architektur ist nicht horizontal skalierbar.
  • Die Erzielung einer optimalen Performance erfordert Spezialwissen und aufwändige Planungsarbeit.
  • Es findet keine automatische Lastverteilung statt. Oft sind 20 Prozent der Disks mit 80 Prozent der I/Os beschäftigt. Die Folge sind Flaschenhälse, deren Beseitigung viel Zeit kostet.
  • Der Energieverbrauch traditioneller Speichersysteme ist extrem hoch.
  • Die Administrationskosten wachsen überproportional mit der Speicherkapazität.“ [2]

Eine Grid-Architektur soll für diese angesprochenen Mängel bisheriger Enterprise-Arrays eine Antwort bereitstellen. Bei IBM selbst spricht man mal von „Grid“, dann wieder von „Cluster“. Letztlich handelt es sich um ein „lose gekoppeltes“ Bündel von Platteneinschüben oder Modulen, das in einem fertigen, in sich geschlossenen Array geliefert wird und die einzelnen Bauteile über IP-Leitungen miteinander verbindet.

Mit Scale Out näher am Datenwachstum

Der Analyst Josh Krischer beschreibt den Unterschied zwischen den Architekturen wie folgt: „Traditionelle Enterprise-Architekturen für Highend-Storage beruhen auf einer Switched Matrix mit Host- und Geräte-Adaptern, so wie sie die DMX von EMC oder die USP von Hitachi Data System (HDS) anbieten, oder sie sind Tightly Coupled (CMP) wie bei der DS8000 von IBM. Die meisten traditionellen Midrange-Systeme benützen Dual Controller mit gespiegeltem Cache wie zum Beispiel Clariion von EMC, AMS von HDS, EVA von HP oder die PS-Familie von Dell/EqualLogic.

In den letzten Jahren kam eine neue Gruppe von block-basierten Speichersystemen hinzu, zu der Inserv von 3PAR, SAN/IQ von Lefthand (jetzt HP), Hydrastore von NEC, Sun Fire X4500, X-Series von Isilon und XIV von IBM zählen. [3] Wahrscheinlich müsste man auch EMCs Virtual Matrix Infrastruktur in eine Betrachtung von Scale-Out-Architekturen einbeziehen.

Die Besonderheit des cluster- oder gridartigen Aufbau bei der XIV besteht in Rack-Modulen zu gegenwärtig jeweils 12 SATA-Platten mit 1 Terabyte, einem x86-Einschub mit modifiziertem Linux und einem Cache von 8 GByte, die sich mit jedem Modul zu einer neuen Gesamtheit organisieren. Die Rohkapazität beträgt 180 Terabyte.

Jedes Wachstum braucht Reorganisation

weiter mit: Jedes Wachstum braucht Reorganisation

Jedes Wachstum braucht Reorganisation

Um Verfügbarkeit der Daten zu gewährleisten, kommt kein RAID zum Einsatz, sondern Yanai hat hierzu einen besonderen Algorithmus entwickelt (IBM nennt das RAID-X), auf den mittlerweile 50 Patente angemeldet wurden und der nur bei den XIV-Maschinen eingesetzt wird: Alle Daten werden in kleine Portionen von je einem MByte (Chunks) aufgeteilt und beim Schreibvorgang über sämtliche Module beziehungsweise Platten des Systems gestreut.

Zur Sicherheit werden sie noch einmal redundant auf alle Festplatten verteilt, wobei jedes Plattenmodul unterschiedliche primäre und sekundäre Chunks enthält. Der Algorithmus verhindert zugleich, dass sich Originale und Doubletten (oder intern gespiegelte Daten) im gleichen Modul befinden. Damit der Algorithmus funktioniert, werden den Daten nur 79 Terabyte an Netto-Kapazität (nicht an dediziertem Plattenplatz) zur Verfügung gestellt, und für die Doubletten noch einmal die gleiche Kapazität. Bezogen auf die Brutto-Kapazität von 180 Terabyte werden also weniger als 50 Prozent effektiv als Speicherplatz genutzt – eine geringere Rate als bei RAID 10.

Performance im labilen Gleichgewicht

Bei einem Ausfall einer oder mehrerer Platten – womit bei den billigeren SATA-Disks ja immer gerechnet werden muss – werden alle Datenblöcke unter Rückgriff auf die Doubletten umkopiert, bis wieder Original und Doppel gleichmäßig über alle Platten verteilt sind. Das Gleiche passiert, wenn eine Festplatte entfernt oder hinzugefügt wird – sofort startet der Algorithmus automatisch und sorgt für eine neue Gleichverteilung aller Daten.

Die in diesem Schema überhaupt nicht genutzte Reserve von 22 Terabyte an Plattenplatz tritt dann in Aktion, wenn bei einem Plattenausfall ein Rebuild der gespeicherten Datenblöcke organisiert werden muss und kein Platz vorhanden ist, um die gespiegelten Daten irgendwo ablegen und dann wieder gleichmäßig verteilen zu können . Der von Yanai entwickelte Algorithmus ist nach offizieller IBM-Aussage in der Lage, einen solchen Rebuild in „weniger als 30 Minuten“ zu schaffen.

Laut IBM ist dieses Verfahren zuverlässiger und schneller als bisherige RAID-Verfahren. Radke von IBM räumt ein, dass RAID 10 von der Performance her die gleichen Effekte erzielen kann. Es gebe aber einen wesentlichen Unterschied in der Praxis: Normalerweise verändern sich in einem Speicherarray, das RAID 5, 6 oder 10 benützt, mit der Zeit die Datenbestände, da die Administratoren neue LUNs planen, konfigurieren oder auch wieder wegnehmen – je nach den Anforderungen von Applikationen und Geschäftsprozessen.

Dabei werde jedoch – so Radke – fast immer der Aufwand gescheut, die Daten nach solchen Veränderungen wieder neu zu verteilen. Eine Redistribution würde zum Beispiel bei Datenbanken sehr viel Planungsaufwand und Performance kosten, wovor viele Kunden einfach zurückschrecken. Das Resultat ist nach Radke ein Daten-Flickenteppich auf den Arrays mit entsprechenden Performance-Problemen. Im Gegensatz dazu wird bei den XIV-Speichergeräten bei jedem Plattenwechsel sofort ein Rebuild ausgelöst, um wieder eine konsistente Gleichverteilung der Daten auf den Modulen und Disks zu erreichen, so dass das System mit unveränderter Performance weiterarbeiten kann.

XIV, am Anfang eines langen Weges

weiter mit: XIV, am Anfang eines langen Weges

XIV, am Anfang eines langen Weges

Würden mehrere XIV-Arrays zum Beispiel bis in den Petabyte-Bereich hinein miteinander gekoppelt, ließe sich der Datendurchsatz im gesamten System weiter erhöhen: je mehr Platten, desto höhere Performance. Dies ist laut Radke von der Architektur des Systems her prinzipiell möglich, doch wird es eine externe Skaliermöglichkeit erst ab Mitte des Jahres geben – zunächst kann lediglich eine zweite XIV-Maschine hinzugefügt werden, so dass dem Anwender dann maximal 158 Terabyte an Netto-Kapazität zur Verfügung stehen. Wann in einer weiteren Ausbaustufe vier Racks zusammengeschlossen werden können, läßt IBM offen. Dies hänge auch von der Akzeptanz am Markt ab.

Nach der Markteinführung eines ersten Modells mit 180 Terabyte an Brutto-Kapazität hat IBM im Februar eine Einstiegsmaschine herausgebracht, die bei 27 Terabyte Nettokapazität startet und in fünf Stufen bis auf 79 TB erweitert werden kann.

Snapshot-Monster

Die XIV bringt derzeit an heute allgemein verfügbaren Speicherfunktionen folgendes mit: synchrones Remote Mirroring, Thin Provisioning und Snapshots für die Schreibprozesse. Bis zu 16.000 Snapshots werden unterstützt. Die Snapshots können in konsistenten Gruppen gesammelt und gemeinsam verwaltet werden. Wird für ein Volume oder eine Gruppe von Volumes ein Snapshot erzeugt, werden lediglich die Meta-Informationen gespeichert.

IBM-Mann Radke erläutert: „Dies ist eine reine Memory Operation, die immer ca. 150 Millisekunden dauert, unabhängig von der Größe eines Volumes (dies gilt auch für das Löschen von Snapshots). Auch der verwendete Speicherplatz für ein Snapshot ist zu diesem Zeitpunkt gleich null. Erst wenn Datenblöcke verändert werden, sorgt ein Redirect-on-Write (ROW) dafür, dass der modifizierte Datenblock an eine andere Stelle geschrieben wird. Diese Technik ist schneller als das übliche Copy-on-Write-Verfahren (COW), da eine Schreiboperation weniger notwendig ist.“ [4]

Für den Analysten Krischer sind die große Anzahl von Snapshots und ihre schnelle Durchführung eine geeignete Voraussetzung, um Continuous Data Protection (CDP) mit der XIV durchzuführen. Er geht auch davon aus, dass IBM bald Diligent ProtecTier in die Maschine integrieren wird, da beide Systeme Linux benützen und die Entwicklungscenter beider IBM-Töchter nur wenige Kilometer voneinander entfernt in Israel liegen.

IBM bezeichnet die XIV zwar auch als Highend-System, doch weiß man sehr wohl, dass man mit ihr im Moment noch nicht in den Leistungsbereich hineinkommt, der für businesskritische Applikationen wie Datenbanken oder SAP erforderlich ist. Heute geforderte Antwortzeiten von 1 bis 1,5 Millisekunden sind mit SATA-Platten mit ihren langsamen Bewegungen selbst in einer Grid-Situation nicht zu machen.

Man ist sich offenbar bewusst, dass man mit dieser Speicherarchitektur noch nicht die Bedürfnisse von Unternehmensumgebungen mit SAP-Anwendungen oder Datenbanken wie Oracle oder DB2 trifft.

weiter mit: Highend-Grid-Storage bleibt vorerst ein Widerspruch

Highend-Grid-Storage bleibt vorerst ein Widerspruch

Doch das ließe sich zukünftig ändern durch diverse Erweiterungen der XIV. So wäre es denkbar, dass nach einem Tiered-Storage-Prinzip innerhalb der Arrays Partitionen mit SSD- oder SAS-Platten zum Einsatz kommen, um tatsächlich den Highend-Bereich abzudecken. Das könnte langfristig sogar auf eine Ablösung der bisherigen DS4000 und DS8000 hinauslaufen. Und das zu günstigeren Preisen als heute, sollte man größere Stückzahlen produzieren können.

Das Team um Moshe Yanai in Israel wurde jedenfalls aufgestockt. Ein besonderer Augenmerk soll zunächst der Verbesserung des Verteilalgorithmus gelten, um die Maschinen insgesamt schneller zu machen.

Unzureichende Replikationsdistanz

IBM wird im 2. Halbjahr 2009 asynchrones Mirroring zu der XIV hinzufügen, so dass auch grössere Distanzen als die mit synchronem Mirroring möglichen 120 km zu überbrücken sind. Später sollen dann noch Consistency Groups (Daten und Logfiles zusammen in einer Gruppe) für Mirroring hinzugefügt werden, die es bisher nur für Snapshots gibt. Der Support für SMI-S steht ebenfalls noch aus: Im Sommer soll zunächst Monitoring angeboten werden.

Wann weitere Funktionen wie zum Beispiel Anlegen von Volumes hinzukommen werden, steht noch in den Sternen. Sicherlich ein weiteres Beispiel dafür, wie ernst es die Hersteller mit der von der SNIA seit Jahren propagierten Standardisierung beim Speichermanagement halten.

Die noch nicht mögliche direkte Anbindung von Mainframes – ein nach wie vor essentieller Geschäftszweig für IBM, der jährlich 25 Prozent zum Gesamteinkommen beisteuert – soll in zukünftigen Versionen angeboten werden. Laut Aussage von Radke ist sie aber schon jetzt über SVC (SAN Volume Controller) zu bewerkstelligen.

Der ehemalige Gartner-Analyst Nicholas Allen nennt die XIV-Produkte “A Wakeup Call to the Industry“. Seine Argumente: Ehemals ein interessantes Produkt einer Nischencompany, steht es nun unter dem Schutz und dem marktbeherrschenden Einfluss von IBM. Verbesserte Features, geringere Produktionskosten und bewährte Verkaufskanäle können neue Märkte erschließen.

Allen sieht XIV auf einer technologischen Höhe mit Newcomern wie 3PAR oder Compellent, die sich mit Thin Provisioning und Clustered Storage gegen die etablierte Konkurrenz durchsetzen konnten. IBM versucht es nun mit einem skalierfähigen Grid-Ansatz, dessen automatischer Distributions-Algorithmus den Administratoren viel Arbeit abnimmt. Jetzt müssen nur noch die Kunden auf breiter Front mitmachen.

(ID:2021374)