Information Overkill ist ein Fremdwort für die Apache Software Foundation

Die Freunde des Hadoop-Ökosystems wollen alles ganz genau wissen

Seite: 2/2

Ein redundanter zweiter Master sorgt für die Ausfallsicherheit. Das entspricht der Aufgabenverarbeitung im klassischen High Performance Computing (HPC), wobei hier aber Datenbanken und nicht Formeln ausgewertet werden. Der Hadoop-Cluster kann im Modus „standalone“, „pseudo-distributed“ und „fully distributed“ betrieben werden.

Die freie Software Hadoop selbst hat zwei Hauptkomponenten:

Bildergalerie
Bildergalerie mit 7 Bildern
  • Das Hadoop Distributed File System (HDFS) ist ein selbstheilender, breitbandiger Speicher-Cluster, der auf lokale Betriebssysteme wie ext3 oder xfs aufsetzt.
  • Map Reduce ist eine fehlertolerante, verteilte Prozessverarbeitung, die die Nadel im Datenheuhaufen findet.

HDFS ist nicht unangefochten. Bevor es zu HDFS wurde, war es Googles File System. Nun ist es Open Source Software und wird von der Apache Software Foundation verwaltet und weiterentwickelt. Dass das Hadoop Distributed File System nicht das Maß aller Dinge ist, zeigen alternative Distributionen wie Cloudera, Hortonworks und MapR. Letztere wollen einige bislang ungelöste Probleme wie Instabilitäten, Misstrauen in den zeitgerechten Ablauf von Batch-Prozessen oder zu komplizierte I/O-Arbeitsabläufe in ihrer Distribution gelöst haben.

Zusätzlich zu diesen bekannteren Distributionen bietet beispielsweise Google noch Konnektoren an, die HDFS umgehen und den Hadoop-Cluster direkt mit dem Google Cloud Storage verbinden und neben einfacher bedienbaren, gemeinschaftlichen Zugriffsfunktionen auch Verschlüsselung bieten. Amazon offeriert mit S3 eine Infrastructure as a Service, also ähnliches wie Google an. Weitere Konkurrenz zu HDFS kommt von den großen Anbietern wie IBM, HP, SGI oder auch Quantum, die ebenfalls verteilte Dateisysteme in ihrem Besitz haben.

Datenhaufen bestehen eigentlich nur aus Stecknadeln

Anders als HDFS ist Map Reduce die herausragende Funktion bei Hadoop. Map Reduce verteilt die Daten über die Rechenknoten, die jeder für sich auf die Suche gehen nach z.B. den höchsten und tiefsten Temperaturen auf der Welt im Jahr 2013. Map Reduce schüttelt, mischt und schiebt die Daten auf jedem Knoten nach den drei Parametern Temperatur hoch, Temperatur tief, Jahr 2013 durcheinander, verwirft die Teilresultate, weil sie weder größer noch kleiner sind, und reduziert so mit jedem Rechenschritt die gesamte Datenmenge, bis nur noch zwei Werte vorhanden sind und die höchste und tiefste Temperatur gefunden ist.

So könnte man auch die Straße mit den tiefsten Schlaglöchern ermitteln, wenn viele Autos mit GPS ausgestattet und in den Stoßdämpfern Sensoren angebracht wären. Oder man stattet Bordsteine mit Bewegungsmeldern aus und weiß dadurch, wo noch ein Parkplatz im Stadtzentrum frei ist. Das Internet der Dinge wird da sicherlich noch mit einigen überraschenden Ergebnissen aus der Verknüpfung der Messwerte von Milliarden Sensoren kombiniert mit menschlicher Sensorik aufwarten.

(ID:42602247)