Master-Knoten eines HDFS-Clusters Was ist ein NameNode?

Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Dr. Jürgen Ehneß

NameNode ist ein Begriff aus dem Umfeld des Hadoop Distributed File Systems (HDFS). Es handelt sich um einen Master-Knoten eines HDFS-Clusters. Client-Knoten werden als „DataNodes“ bezeichnet. Aufgaben des NameNodes sind die Organisation der Daten auf den DataNodes, die Verwaltung des Namespaces und das Speichern der Metadaten.

Firma zum Thema

Die wichtigsten IT-Fachbegriffe verständlich erklärt.
Die wichtigsten IT-Fachbegriffe verständlich erklärt.
(Bild: © aga7ta - Fotolia)

NameNode ist die Bezeichnung eines Master-Knotens eines HDFS-Clusters. Die Abkürzung HDFS steht für „Hadoop Distributed File System“. Ein HDFS ermöglicht das verteilte Speichern großer Datenmengen in einem Rechnerverbund. Der Name der Client-Knoten des Clusters lautet „DataNodes“.

Während auf den DataNodes die eigentlichen Daten gespeichert sind, übernimmt der NameNode die Organisation der Daten auf den DataNodes, die Verwaltung des Namespaces und das Speichern der Metadaten. Funktionen wie das Öffnen, Umbenennen oder Schließen von Dateien erfolgen immer über den NameNode.

Die Abarbeitung dieser Aktionen überträgt der Master-Knoten an die DataNodes. Sie führen die eigentlichen Schreib- und Leseoperationen aus. NameNodes und DataNodes lassen sich auf Standard-Hardware realisieren. Die Knoten sind in Software realisiert und benötigen zur Ausführung Java.

Grundsätzliches zum HDFS

Das Hadoop Distributed File System ist eine Kernkomponente des Apache Frameworks Hadoop. HDFS ist in der Lage, riesige Datenmengen hochverfügbar zu speichern. Das Dateisystem und das Hadoop Framework kommen beispielsweise für Anwendungen im Big-Data-Umfeld zum Einsatz. Integrierte Duplizierungsmechanismen der Daten sorgen dafür, dass sich Ausfälle einzelner Rechner ohne Datenverlust abfangen lassen.

Hadoop Cluster können aus vielen hundert oder tausend einzelnen Knoten bestehen. Neben HDFS sind der MapReduce-Algorithmus, der Yet Another Resource Negotiator (YARN) und Hadoop Common weitere Kernkomponenten des Hadoop Frameworks.

Aufgaben des NameNodes und Zusammenspiel mit den DataNodes

Das HDFS arbeitet nach dem Master-Slave-Prinzip. Ein Cluster besitzt einen Master-Node, den NameNode, und viele Client-Nodes, die DataNodes. Der Master organisiert das Speichern der Daten auf den DataNodes und verwaltet nach außen den Namespace. Zur Speicherung der Dateien werden sie in Datenblöcke aufgeteilt und auf verschiedenen DataNodes abgelegt.

Das Erstellen, Löschen oder Replizieren der Datenblöcke auf den DataNodes geschieht auf Anweisung des NameNodes. Sowohl die Blockgrößen als auch die Anzahl der Replikate sind konfigurierbar. Beim Lesen oder Schreiben fließen die Daten nicht durch den Master-Knoten. Sie werden direkt von den DataNodes verarbeitet.

Auf den Cluster bezogen, stellt der NameNode einen Single Point of Failure (SPoF) dar. Fällt der Master-Knoten aus, ist das Dateisystem für externe Anwendungen nicht mehr verfügbar. In der Regel ist ein Eingreifen zur Wiederherstellung der Funktionalität und zur Aktivierung eines alternativen Master-Knotens notwendig. Mittlerweile existiert die Möglichkeit, einen Hot-Standby-Knoten für die Metadatenverwaltung zu definieren.

(ID:46931823)

Über den Autor