Mit Java-basiertem Framework Prozesse auf Servern verteilen

Big Data im Unternehmen mit Hadoop

| Autor / Redakteur: Thomas Joos / Rainer Graefen

(Grafik: Thomas Joos)

Immer mehr Unternehmen müssen sehr große Datenbanken und Serverprozesse verwalten und organisieren. Gut, wenn das Filesystem dann in der Lage ist, die Rechenaufgaben zwischen verschiedenen Servern verteilen und damit beschleunigen zu können.

Ein bekanntes Beispiel für die großer Datenmengen ist das Open-Source-System Apache Hadoop. Das verarbeitet sehr große Datenmengen und kann tausende Serverknoten ansprechen. Das System basiert auf Algorithmen von Google und wird zum Beispiel auch bei Yahoo oder Ebay eingesetzt.

Hadoop arbeitet zur Verwaltung der großen Datenmengen mit wichtigen Funktionen wie Map Reduce des Suchmaschinenbetreibers Google. Das liegt nicht zuletzt daran, dass vor allem Suchmaschinenbetreiber riesige Datenmengen verwalten und organisieren müssen.

Primär Linux, Windows unter ferner liefen

Solchen Aufgaben sehen sich auch immer mehr Unternehmen gegenüber. Auch Microsoft unterstützt in Windows Azure Hadoop. Der Vorteil ist, dass das System von sich aus bereits ausfallsicher ausgelegt ist und seine Daten zwischen den einzelnen Clusterknoten repliziert.

Generell lassen sich Hadoop-Cluster mit normalen Servern oder Computern aufbauen. Das heißt, der Einstieg ist recht einfach. Allerdings sollte als Betriebssystem für Hadoop oder Linux im Einsatz sein. Administratoren in reinen Windows-Umgebungen sind deshalb ein wenig außen vor und müssen schauen wie sie sich in diesem Bereich einiges an Wissen aufbauen.

Es gibt nur wenige Distributionen, die neben Linux auch Windows unterstützen. Zum Beispiel Hortonworks. Aber aufgepasst. Die Hortonworks Data Platform (HDP) unterstützt zwar Windows Server 2012, allerdings ist das System generell für Linux optimiert. Hadoop nutzt außerdem das Java Developer Kit ab Version 1.6.

Hadoop-Funktionen im Überblick

Seit einigen Jahren ist Hadoop ein Projekt innerhalb der Apache Software Foundation und wird ständig weiterentwickelt. Hadoop setzt sich aus verschiedenen Teilen zusammen. Vor allem drei Bereiche stellen die Grundlage dar:

  • Hadoop Common,
  • Hadoop Distributed File System (HDFS) und der
  • Map-Reduce-Algorithmus.

Hadoop Common stellt Grundfunktionen zur Verfügung und bildet eine Schnittstelle für alle angebundenen Systeme und Funktionen. In diesem Bereich liegen auch die Java-Systemdateien und die Skripte zur Verwaltung und Einrichtung.

Das Hadoop (HDFS) ist das System zur Speicherung der Datenmenge bis in den -Bereich. Das System ist für Cluster optimiert, eine wichtige Voraussetzung für die Verarbeitung sehr großer Datenmengen im Big Data-Bereich.

Und der Map-Reduce-Algorithmus schliesslich ist das Google-System, welches die Rechenaufgaben zu den Daten in kleinere Teile zerlegt und auf die Serverknoten verteilt.

Datenschraubstock

Der Algorithmus ist dafür verantwortlich, dass die Daten schnell und effizient berechnet werden, unabhängig von der Größe der Datenmenge und Anzahl der Server. Über den Algorithmus verteilen die Server im Hadoop-Cluster die Daten, replizieren diese zur Ausfallsicherheit und fassen die Daten anschließend zu einem Ergebnis zusammen.

Nachdem die Rechenaufgaben verteilt wurden, rechnen die einzelnen Server diese durch und senden die Ergebnisse zurück. Die Teilergebnisse baut nun der MapReduce-Algorithmus wieder zum Endergebnis zusammen. Eine wichtige Funktion von Map Reduce ist die Verarbeitung der Daten direkt auf dem entsprechenden Server. Der Algorithmus schickt nur kleine Datenmengen über das Netzwerk, um die nicht zu überlasten.

Inhalt des Artikels:

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 39429300 / Big Data)