Mit Java-basiertem Framework Prozesse auf Servern verteilen

Big Data im Unternehmen mit Hadoop

| Autor / Redakteur: Thomas Joos / Rainer Graefen

(Grafik: Thomas Joos)

Immer mehr Unternehmen müssen sehr große Datenbanken und Serverprozesse verwalten und organisieren. Gut, wenn das Filesystem dann in der Lage ist, die Rechenaufgaben zwischen verschiedenen Servern verteilen und damit beschleunigen zu können.

Ein bekanntes Beispiel für die Bereitstellung großer Datenmengen ist das Open-Source-System Apache Hadoop. Das Framework verarbeitet sehr große Datenmengen und kann tausende Serverknoten ansprechen. Das System basiert auf Algorithmen von Google und wird zum Beispiel auch bei Yahoo oder Ebay eingesetzt.

Hadoop arbeitet zur Verwaltung der großen Datenmengen mit wichtigen Funktionen wie Map Reduce des Suchmaschinenbetreibers Google. Das liegt nicht zuletzt daran, dass vor allem Suchmaschinenbetreiber riesige Datenmengen verwalten und organisieren müssen.

Primär Linux, Windows unter ferner liefen

Solchen Aufgaben sehen sich auch immer mehr Unternehmen gegenüber. Auch Microsoft unterstützt in Windows Azure Hadoop. Der Vorteil ist, dass das System von sich aus bereits ausfallsicher ausgelegt ist und seine Daten zwischen den einzelnen Clusterknoten repliziert.

Generell lassen sich Hadoop-Cluster mit normalen Servern oder Computern aufbauen. Das heißt, der Einstieg ist recht einfach. Allerdings sollte als Betriebssystem für Hadoop Unix oder Linux im Einsatz sein. Administratoren in reinen Windows-Umgebungen sind deshalb ein wenig außen vor und müssen schauen wie sie sich in diesem Bereich einiges an Wissen aufbauen.

Es gibt nur wenige Distributionen, die neben Linux auch Windows unterstützen. Zum Beispiel Hortonworks. Aber aufgepasst. Die Hortonworks Data Platform (HDP) unterstützt zwar Windows Server 2012, allerdings ist das System generell für Linux optimiert. Hadoop nutzt außerdem das Java Developer Kit ab Version 1.6.

Hadoop-Funktionen im Überblick

Seit einigen Jahren ist Hadoop ein Projekt innerhalb der Apache Software Foundation und wird ständig weiterentwickelt. Hadoop setzt sich aus verschiedenen Teilen zusammen. Vor allem drei Bereiche stellen die Grundlage dar:

  • Hadoop Common,
  • Hadoop Distributed File System (HDFS) und der
  • Map-Reduce-Algorithmus.

Hadoop Common stellt Grundfunktionen zur Verfügung und bildet eine Schnittstelle für alle angebundenen Systeme und Funktionen. In diesem Bereich liegen auch die Java-Systemdateien und die Skripte zur Verwaltung und Einrichtung.

Das Hadoop Distributed File System (HDFS) ist das System zur Speicherung der Datenmenge bis in den Petabyte-Bereich. Das System ist für Cluster optimiert, eine wichtige Voraussetzung für die Verarbeitung sehr großer Datenmengen im Big Data-Bereich.

Und der Map-Reduce-Algorithmus schliesslich ist das Google-System, welches die Rechenaufgaben zu den Daten in kleinere Teile zerlegt und auf die Serverknoten verteilt.

Datenschraubstock

Der Algorithmus ist dafür verantwortlich, dass die Daten schnell und effizient berechnet werden, unabhängig von der Größe der Datenmenge und Anzahl der Server. Über den Algorithmus verteilen die Server im Hadoop-Cluster die Daten, replizieren diese zur Ausfallsicherheit und fassen die Daten anschließend zu einem Ergebnis zusammen.

Nachdem die Rechenaufgaben verteilt wurden, rechnen die einzelnen Server diese durch und senden die Ergebnisse zurück. Die Teilergebnisse baut nun der MapReduce-Algorithmus wieder zum Endergebnis zusammen. Eine wichtige Funktion von Map Reduce ist die Verarbeitung der Daten direkt auf dem entsprechenden Server. Der Algorithmus schickt nur kleine Datenmengen über das Netzwerk, um die Infrastruktur nicht zu überlasten.

Inhalt des Artikels:

Kommentar zu diesem Artikel abgeben
Thanks for the post, In this complex environment business need to present there company data in...  lesen
posted am 27.12.2013 um 13:15 von Unregistriert


Mitdiskutieren

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 39429300 / Big Data)