Suchen

Big Data Hosting Service Provider in der Zettabyte-Ära

Autor / Redakteur: Diethelm Siebuhr* / Rainer Graefen

Die Datenmengen verdoppeln sich derzeit alle zwei Jahre. Diese Entwicklung stellt auch die Service Provider vor neue Herausforderungen. Mit einer rein quantitativen Aufrüstung der Systeme ist es dabei nicht getan, notwendig sind vielmehr intelligente Lösungen, die das Datenaufkommen ohne Leistungseinbußen optimieren

Firmen zum Thema

Auch für große Datenmengen gerüstet – Rack-Reihen im Rechenzentrum von Easynet (Quelle: Easynet)
Auch für große Datenmengen gerüstet – Rack-Reihen im Rechenzentrum von Easynet (Quelle: Easynet)

„Big Data“ ist neben Cloud Computing und mobilen Systemen zu einem der Top-Themen der IT geworden. Derzeit verdoppelt sich der weltweite Datenbestand etwa alle zwei Jahre und in den Unternehmen hat das Megabyte als Messgröße schon ausgedient. Die Rechenzentren denken heute kaum noch in Terabyte, sondern gleich in Petabyte – man ist also schon bei Größenordnungen von 10^15 angelangt.

Betrachtet man das Datenwachstum nicht mehr lokal, sondern global, so ist neuerdings bereits das Zettabyte – 10^21 – en vogue: Um 1,8 Zettabyte soll nämlich 2011 die globale Datenmenge gewachsen sein. Vermutlich werden wir auch noch das Yottabyte mit seinen 10^24 Bytes erleben.

Speicherkosten im Aufwärtstrend

Früher, also bis in die Terabyte-Ära, konnte man das Datenwachstum in der Regel problemlos durch zusätzliche Speicher-, Verarbeitungs- und Übertragungskapazitäten auffangen. Die entsprechende Technik entwickelte sich weitgehend parallel zu den Datenmengen, die Kosten für die Speicherung nahmen zwar insgesamt tendenziell zu, sanken aber pro Byte drastisch.

Ältere IT-Nutzer können sich noch an die ersten 10-MByte-Festplatten für PCs erinnern, für die man rund 5.000 Mark zu zahlen hatte; heute sind 10 MByte für knapp 0,005 Cent zu haben, wobei ein einziges hoch auflösendes Foto schon mehr Platz benötigt. Auch wenn die ständige Verkleinerung und Verbilligung von Systemkomponenten wie Speichermedien irgendwann an eine technische Grenze stoßen muss – Atome lassen sich nun mal nicht verkleinern –, das aktuelle Problem mit Big Data liegt weniger darin, diese Datenmengen überhaupt auf geeigneten Medien unterzubringen, sondern sie dann auch noch mit vertretbarem Aufwand verarbeiten und verwalten zu können.

Gründe des Datenwachstums

Die Ursachen für das enorme Datenwachstum sind vielfältig, wobei zwei im Vordergrund stehen. Zum einen erzeugt die IT selbst immer mehr Daten. Insbesondere die fortschreitende Digitalisierung von technischen Prozessen führt dazu, dass immer mehr Daten entstehen: Daten von digitalen Messfühlern, Log-Daten, RFID-Daten, Bewegungsdaten, GPS-Daten und alle Daten, die die digitalen Systeme untereinander austauschen. Jeder Zugriff auf ein Lager, jeder Prozessschritt in der Fertigung, jeder Kassenvorgang erzeugt eine Flut von Daten, die konsolidiert, ausgewertet und gespeichert werden müssen.

Zu den System-generierten Daten kommen jene, die durch die Nutzer erzeugt werden. Die klassischen Dokumente sind unter dem Aspekt Datenvolumen heute zu vernachlässigen, im Zentrum der Aufmerksamkeit stehen Multimedia-Inhalte, so zum Beispiel Audio-Files, hoch auflösende Fotos oder HD-Videos. Diese Formate sind nicht nur äußerst datenintensiv, sie werden von den Nutzern mehr und mehr als Normalfall angesehen, wie der Weihnachtsgruß an die Tante, der ganz selbstverständlich ein HD-Video enthält.

Beschleunigsfaktor Social Media

Social Media hat sich dabei als Beschleunigungsfaktor für das Datenwachstum erwiesen. Dazu kommt noch, dass viele Daten mehrfach gespeichert werden und "alte" Daten nur selten gelöscht werden, so dass ein immenser „Datenmüll“ entsteht.

Dabei ist das hohe Datenaufkommen keineswegs auf die privaten Anwender beschränkt, auch wenn von ihnen im Zuge der „Consumerization“ der Anstoß ausging. Multimedia-Inhalte sind vor dem Hintergrund einer allgemein intensivierten Medien-Kommunikation beispielsweise auch in Online-Shops üblich, wo den Kunden etwa hoch auflösende Panoramafotos oder Videos von den angebotenen Produkten gezeigt werden oder Videos gleich Bestandteil von Leistungen sind.

Die aus unterschiedlichen Gründen entstehenden großen Datenmengen werden in der IT mittlerweile durchaus als Problem gesehen – was sich auch daran zeigt, dass sich mit Big Data ein eigener Begriff etabliert hat.

Big Hosting

Denn es reicht ja nicht, die Daten irgendwo abzulegen, vielmehr muss man sie zum richtigen Zeitpunkt, mit begrenztem Aufwand und ohne hohe Latenzzeit auch wieder finden. Herkömmliche relationale Datenbanken können die großen Datenmengen, die zudem nur zu einem geringen Teil strukturierte Daten umfassen, nicht mehr optimal verarbeiten.

Insbesondere für datenintensive Anwendungen, beispielsweise für Data Warehouse oder Data Mining müssen daher andere Lösungen gefunden werden. Hier bieten Storage Resource Management und Data Life Cycle Management geeignete Technologien und Maßnahmen, die von der Storage-Virtualisierung über die Deduplizierung bis zu einer durchgängigen Priorisierung der Daten reichen.

Dabei steht meist die Datenhaltung im Vordergrund, also klassische IT, wie sie mit den bekannten Server- und Storage-Systemen betrieben wird. Auch für Hosting und Service Providing, also für eine Remote betriebene Datenverarbeitung beziehungsweise in einem weiteren Sinn für Cloud Computing generell, stellt das starke Datenwachstum eine Herausforderung dar.

Wohin mit der Spitzenlast

Zum Einen sind die Provider natürlich mit wachsenden Datenmengen konfrontiert, die sie ihren Unternehmenskunden abnehmen. Schon seit längerem beobachten Service Provider, dass ein Datenaufkommen, das bei ihren Kunden bisher nur als Spitzenbelastung auftrat, nun mehr und mehr zur normalen Beanspruchung wird. Im Hosting betrifft das nicht die System-generierten Daten, sondern die erwähnten, von den Nutzern erzeugten Daten, konkret vor allem Daten aus Anwendungen, die intensiv von grafischen Darstellungen sowie von Audio- und Video-Elementen Gebrauch machen.

Wenn Unternehmen mit Big Data operieren, so müssen natürlich auch Provider in der Lage sein, solche Daten für ihre bestehenden Kunden zu verarbeiten. Service Provider müssen sich also darauf einstellen, dass die bei ihnen verarbeiteten Datenmengen in der nächsten Zeit (weiter) stark steigen werden. Gerade wenn Unternehmen beim Handling von Big Data an Grenzen der eigenen Ressourcen, aber auch des eigenen Know-hows stoßen, werden sie vermehrt nach Partnern Ausschau halten, die ihnen nicht nur zeigen können, wie es geht, sondern die ihnen am besten den Datenwust gleich ganz abnehmen.

Mit steigenden Service-Kosten ist zu rechnen

Es ist damit zu rechnen, dass in den nächsten Jahren mehr Unternehmen an diese Grenzen stoßen werden – ja, viele werden überhaupt erst noch erkennen, dass der herkömmlichen Datenhaltung und -verarbeitung, etwa mittels relationaler Datenbanken, Grenzen gesetzt sind.

Service Provider müssen für diese wachsenden Anforderungen eine entsprechend leistungsfähige Infrastruktur aufbauen und betreiben. Dies umfasst zunächst quantitativ mehr Systeme, mehr Aufwand für Kühlung und den Ausbau bei der Netzwerktechnik. Was die Hardware anbelangt, so können Provider hier zum Teil mit dem üblichen Preisverfall rechnen, der die Kosten für die nötigen systemtechnischen Erweiterungen wieder begrenzt.

Diesem Preisverfall unterliegen allerdings nicht die zu einem professionellen Hosting-Angebot gehörenden Service-Leistungen. Dennoch können Provider diese Leistungen regelmäßig günstiger erbringen als die Unternehmen selbst, da sie in hohem Maße Skalierungs- und Synergieeffekte nutzen. Dazu kommt, dass sie als Spezialisten über Know-how, Erfahrung und geschultes Personal verfügen; Ressourcen, die sich ein Unternehmen selbst erst mühsam aufbauen müsste.

Intelligente Lösungen

Gerade hier zeigt sich, dass das Hosting von Big Data auch eine qualitative Seite hat. Es geht nicht einfach darum, immer mehr Systeme aufzutürmen, um damit die Datenflut aufzufangen. Gefragt sind vielmehr intelligente Lösungen, die für eine effizientere Nutzung der vorhandenen Technik sorgen, und zwar nicht nur auf System-, sondern auch auf Anwendungsebene.

So lässt sich das Datenaufkommen für gehostete E-Commerce-Lösungen drastisch reduzieren, ohne dass dafür die Leistungen eingeschränkt werden müssten, wenn die Verarbeitung großer Datenmengen bereits in der Architektur und in der Ablauflogik berücksichtigt wird. So nutzen beispielsweise viele Online-Shops hoch auflösende Fotos schon für die Artikelübersicht; man hatte im Lauf der Zeit alte Bilder einfach durch neue ersetzt, der Ablauf wurde aber nicht an die neuen speicherhungrigen Bilder angepasst.

Hier würde es genügen, reduzierte Bilder für die Übersicht einzusetzen und die hoch auflösenden Bilder oder das Video für die vom Kunden tatsächlich angeklickten zu reservieren. Durch diese Optimierung müsste nicht auf die Multimedia-Inhalte verzichtet werden und für den Kunden könnte sogar eine Verbesserung erreicht werden, weil die Wartezeiten für das Nachladen der Bilder wegfallen.

Derartige Optimierungen für gehostete Big-Data-Anwendungen setzen natürlich voraus, dass der Provider nicht nur Hosting-Experte ist und über einen leistungsfähigen Maschinenpark verfügt. Er muss darüber hinaus sehr gut über die Geschäftsprozesse der Unternehmen Bescheid wissen. Auch hier ist zu erkennen, dass sich der Schwerpunkt der Leistungen der Service Provider von der reinen Bereitstellung von Remote nutzbarer Hardware in Richtung eines umfassenden Lösungsangebots verschiebt.

*Diethelm Siebuhr, Geschäftsführer Central Europe bei Easynet Global Services in Hamburg

(ID:32188370)