Hadoop-kompatibles Dateisystem Was ist ein Hadoop Compatible File System (HCFS)?

Autor / Redakteur: zeroshope / Dr. Jürgen Ehneß

Ein Hadoop Compatible File System ist jedes Dateisystem, das im Zusammenspiel mit dem Framework Apache Hadoop funktioniert. Diesbezüglich gibt es inzwischen eine große Zahl einschlägiger Angebote mit spezifischen Vorteilen.

Firma zum Thema

Die wichtigsten IT-Fachbegriffe verständlich erklärt.
Die wichtigsten IT-Fachbegriffe verständlich erklärt.
(Bild: © aga7ta - Fotolia)

Bei dem Ausdruck Hadoop Compatible File System (HCFS) handelt es sich die Beschreibung eines Merkmals von Dateisystemen. Sie zeigt an, dass diese mit dem Framework Apache Hadoop gemeinsam funktionieren. Dies ist wichtig, weil die Zahl der entsprechenden Systeme inzwischen beachtlich ist und die Lösungen jeweils eigene Vorzüge bieten.

Wer eine Alternative zur Standard-Software Hadoop Distributed File System (HDFS) benötigt, braucht das Kürzel „HCFS“ als ersten Anlaufpunkt für die eigenen Recherchen.

Über Apache Hadoop

Hadoop ist ein in Java geschriebenes Framework, das der Analyse von Big Data dient. Weithin wird es für diese Aufgabe sogar als der Standard gesehen. Verantwortlich hierfür sind vor allem die offenen Schnittstellen, durch die es leicht mit eigenen Werkzeugen ausgestattet werden kann. Das Hadoop Distributed File System (HDFS) als die bordeigene Dateisystemlösung arbeitet mit Clustern, die zwei Knotenarten kennen: NameNode (zuständig für die Verwaltung, enthält die Metadaten) und DataNode (Träger der Informationen).

Das HDFS hat allerdings zwei Nachteile, weshalb oft nach Alternativen gesucht wird: Erstens leidet die Leistungsfähigkeit eines Clusters, wenn zu viele Nutzer zugleich auf die identischen NameNodes zugreifen. Zweitens sind einige Cluster nur mit einem einzigen solchen „Namensknoten“ ausgestattet. Dieser wird dadurch zu einem Single Point of Failure (SPoF) für den gesamten Cluster.

HCFS als Alternativen zum HDFS und ihre Vorteile

Hadoop-kompatible File-Systeme sind beispielsweise:

  • 1. OrangeFS: schneller als HDFS, weniger Bandbreiten- und Latenzprobleme, paralleler Zugriff auf Nutzer- und Metadaten möglich.
  • 2. SwiftFS: Rechen- und Speichereinheit können getrennt werden und lassen sich unabhängig voneinander skalieren; einige Prozesse können ohne den Start von Hadoop auf die Daten zugreifen.
  • 3. CephFS: mit Commodity-Hardware nutzbar, skalierbar, verteilt sich auf mehrere Nodes (also kein Single Point of Failure).
  • 4. CassandraFS: einfacher Aufbau, da keine Cluster-Knoten mit unterschiedlichen Aufgaben angelegt werden müssen, höhere Ausfallsicherheit als HDFS, Support für mehrere Rechenzentren.

Die einzelnen HCFS haben ihrerseits mit spezifischen Problemen zu kämpfen. Nutzer sollten anhand der Vorteile geeignete Kandidaten identifizieren und anschließend recherchieren, ob die Nachteile für sie akzeptabel sind oder ob es vielleicht Workarounds für etwaige Probleme (zum Beispiel zu hohe Hardware-Anforderungen) gibt.

(ID:47599801)