Interessantes aus aller Welt – ein Dateisystem für alles

Big Data Computing leidet am HDFS

| Autor / Redakteur: Usama Taraben, Rainer Graefen / Rainer Graefen

Das Zeitalter der Statistik hat begonnen.
Das Zeitalter der Statistik hat begonnen. (Grafik: CB057427, Fotolia.com)

Noch ist weder jedes Sandkorn noch jeder Gegenstand mit Sensoren und einer IP-Adresse versehen. Es schadet aber trotzdem nicht, schon jetzt die Weichen zu stellen, wie Google das in einer Abkehr vom Hadoop Distributed File System tut.

Zur Zeit überschlägt sich die Industrie mit der Ankündigung von Hypes: Cloud Computing, Big Data und seit kurzem noch dem Internet der Dinge. Man kann das als getrennte Ereignisse betrachten, ein Blick auf die Inhalte dieser Hypes zeigt allerdings, dass es bei den drei Themen um unbeschränkte Rechenleistung für die Analyse eines unbeschränktes Datenwachstum geht.

Und dieser Markt verspricht außer vielen Erkenntnissen auch viel Umsatz. Gartner veröffentlichte gerade seine ersten Schätzungen welches Umsatzpotenzial im Internet der Dinge steckt: Die Marktforscher rechnen mit 300 Milliarden US-Dollar schon im Jahr 2020. Die Anwärter auf größere Marktanteile sind also alle auf dem Sprung

Wie die Daten zum Rechner kommen

In solche Szenarios sollte man dann Meldungen von Google einsortieren, die einen Konnektor entwickelt haben, der das frisch entwickelte Dateisystem Google Cloud Storage mit Hadoop verbindet. Hadoop ist die industrieweit unbestrittene Plattform für das Analysieren sehr großer bis riesiger Datenmengen. Nicht ganz so unbestritten ist allerdings der Einsatz des Hadoop Distributed File Systems (HDFS).

Einige bislang ungelöste Probleme wie Instabilitäten, Misstrauen in den zeitgerechten Ablauf von Batch-Prozessen oder zu komplizierte I/O-Arbeitsabläufe sind in einem Wikipedia-Beitrag zu Hadoop beschrieben.

Google Cloud Storage ist wie HDFS ein verteiltes Filesystem, das bei einer Datenanalyse die Daten aus den diversen mehr oder weniger weit entfernten Speicherpools zusammenführen muss, damit die zahlreichen Rechenknoten mithilfe des Map-Reduce-Algorithmus ein zur Anfrage zeitnahes Ergebnis erarbeiten können. Storage-Insider-Autor Thomas Joos hat das in einem Grundlagenartikel zur Datenreduzierung anschaulich erörtert.

Die Fürsorglichkeit der Mitbewerber

Wie man im Wikipedia-Beitrag leicht erkennen kann, ist HDFS das Hauptangriffsziel diverser Kontrahenten. Amazon bietet beispielsweise seine Rechenknotenleistung an, der die Daten über S3 zur Verfügung gestellt werden, MapR offeriert ein maprfs-Filesystem, das stabiler und skalierbarer sein soll als HDFS und IBM bot schon 2009 sein General Parallel File System (GPFS) als Ersatz für HDFS an.

Der Vorstoß von Google mit seinem Hadoop-Connector ist insofern nur ein weiteres Angebot an die Big-Data-Gemeinde, die allerdings klarstellt, dass das verteilte Dateisystem im Augenblick noch die größte Angriffsfläche bietet. Hier im Dateisystem wird definiert wo Daten abgelegt werden und wie diese Massendaten der nächstmöglichen Verarbeitungseinheit zur Verfügung gestellt werden. Oder allgemeiner: Ein effizientes Big-Data-Dateisystem hilft seinem Hersteller aus Big Data ein Big Business zu machen.

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Kommentar abschicken

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 42495961 / Big Data)