Kernkomponente des Apache Frameworks Hadoop Was ist das Hadoop Distributed File System (HDFS)?

Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Dr. Jürgen Ehneß

Das Hadoop Distributed File System ist eine Kernkomponente des Frameworks Apache Hadoop. Es eignet sich für die verteilte Speicherung großer Datenmengen. Die Daten sind in einem Rechnerverbund aus Master- und Slave-Knoten abgelegt. Das HDFS erlaubt die Realisierung hochverfügbarer Systeme und kommt für Anwendungen im Big-Data-Umfeld zum Einsatz.

Firmen zum Thema

Die wichtigsten IT-Fachbegriffe verständlich erklärt.
Die wichtigsten IT-Fachbegriffe verständlich erklärt.
(Bild: © aga7ta - Fotolia)

Die Abkürzung für Hadoop Distributed File System lautet „HDFS“. Es handelt sich um eine Kernkomponente des Apache Frameworks Hadoop, das für die Speicherung großer Datenmengen in einem verteilten Rechnerverbund geeignet ist. HDFS kann riesige Datenmengen hochverfügbar bereithalten und kommt für Anwendungen im Big-Data-Umfeld zum Einsatz.

Durch integrierte automatische Duplizierungsmechanismen lassen sich Ausfälle einzelner Rechner ohne Datenverlust abfangen. Das Dateisystem arbeitet im Master-Slave-Betrieb. Die Aufgabe der Organisation der Daten und der Speicherung der Metadaten übernimmt der sogenannte NameNode. Welche Länge die einzelnen Datenblöcke haben sollen und welcher Grad an Redundanz gewünscht ist, ist konfigurierbar.

Das Hadoop Distributed File System ist auf Standard-Hardware einsetzbar. Hadoop-Cluster können aus Hunderten oder Tausenden einzelner Knoten bestehen.

Grundsätzliches zum Framework Apache Hadoop

Das HDFS ist eine Kernkomponente von Apache Hadoop, einem auf Java basierenden Framework zur Verarbeitung großer Datenmengen. Der Quellcode von Hadoop ist frei verfügbar. Bereits seit dem Jahr 2008 ist Hadoop ein Top-Level-Projekt der Apache Software Foundation.

Der Name des Frameworks und das Logo gehen auf einen kleinen Spielzeugelefanten des Sohns des Erfinders Doug Cutting zurück. Weitere Kernbestandteile des Frameworks sind neben dem HDFS:

  • der MapReduce-Algorithmus,
  • der Yet Another Resource Negotiator (YARN),
  • Hadoop Common.

Funktionsweise und Aufbau des Hadoop Distributed File Systems

Das Hadoop Distributed File System arbeitet nach dem Master-Slave-Prinzip. Die Organisation der Daten und die Speicherung der Metadaten finden auf dem Master-Knoten statt. Der Master-Knoten wird als „NameNode“ bezeichnet. Die eigentlichen Daten sind auf den Slave-Knoten (DataNodes) abgelegt.

Sollen Daten gespeichert werden, teilt das File System sie in einzelne Blöcke auf und legt sie redundant auf verschiedenen DataNodes des Clusters ab. Fällt ein einzelner DataNode aus, ist eine Kopie der Daten auf einem anderen DataNode vorhanden. Durch die Verteilung der Datenblöcke auf verschiedene Knoten ist ein performantes Auslesen der Informationen möglich. Die Leseoperationen des Hadoop Distributed File Systems sind effizienter als die Schreiboperationen.

Die Vorteile des Hadoop Distributed File Systems

Das HDFS bietet folgende Vorteile:

  • eine hohe Fehlertoleranz – Realisierung hochverfügbarer Systeme möglich,
  • geeignet für die Speicherung und Verarbeitung großer Datenmengen in einem verteilten Rechnerverbund,
  • vollständige Integration in das Apache Hadoop Framework,
  • performante Leseoperationen,
  • Einsatz auf Standard-Hardware möglich,
  • frei verfügbares, quelloffenes File-System.

(ID:46931819)

Über den Autor