Die Lage-Einschätzung der zukünftigen Big-Data-Plattform könnte unterschiedlicher nicht sein

Welcher Storage-Anbieter setzt bei HDFS auf den richtigen Elefanten-Treiber?

| Autor / Redakteur: Jakob Jung / Rainer Graefen

Kampagne: EMC ist als "Freiheitskämpfer" unterwegs und will den kleinen Hadoop-Elefanten aus dem Käfig befreien.
Kampagne: EMC ist als "Freiheitskämpfer" unterwegs und will den kleinen Hadoop-Elefanten aus dem Käfig befreien. (Bild: VBM-Archiv)

Das Hadoop Distributed File System ist ein Dateisystem für hohen Datendurchsatz. Es bietet einige Vorteile, viele große Storage-Anbieter setzen bei ihrer Big-Data-Strategie darauf - allerdings ist es nicht unumstritten.

Das Open Source Projekt Apache Hadoop ist dafür ausgelegt, riesige Mengen an strukturierten und unstrukturierten Daten zu verarbeiten. Das dazugehörige Hadoop Distributed File System (HDFS) soll den Hochgeschwindigkeits-Zugriff auf Anwendungsdaten ermöglichen.

Aktuell ist die Variante HDFS 2.4.0, die im April erschienen ist.

Die zwei Seiten einer Medaille

HDFS ist ein verteiltes Dateisystem und bringt gegenüber anderen Storage Dateisystemen einige Vorteile, hat aber auch Nachteile. Die Vorteile liegen in den niedrigen Kosten per Byte, den hohen Bandbreiten für Hadoop Workloads und der hohen Datenzuverlässigkeit.

Nicht zur Geltung kommen diese Vorzüge, wenn ein System nicht für die Skalierbarkeit von Hadoop ausgelegt ist, keine Commodity Hardware oder Open Source Software enthält und nicht die Mapreduce I/O-Struktur nutzt. Außerdem gibt es noch zahlreiche kleinere Bugs.

Dennoch überwiegen die Vorteile, wenn das Design intelligent erfolgt und HDFS tatsächlich in erster Linie für Hadoop genutzt wird.

Knoten mit Blöcken

Grundsätzlich ist HDFS fester Bestandteil von Hadoop. Es ist eine Java-Anwendung, die auf einem Standard-Dateisystem aufsetzt. HDFS nutzt eine Shared Nothing Architektur, alle Knoten sind fest mit Disks verbunden (Direct Attached Storage, DAS). Das Dateisystem verwendet Write-Once, das heißt, eine Datei muss kopiert werden, wenn sie verändert werden soll.

HDFS organisiert Daten in Dateien und Verzeichnisse. Die Dateien werden in Blocks geschrieben mit einer Größe zwischen 64 und 128 MByte, die über Knoten verteilt abgelegt werden. Wohin diese Blocks gespeichert werden, wird über „Name Nodes“ festgelegt.

Die Blocks werden typischerweise dreimal repliziert, um bei Ausfällen ersetzt zu werden. Check-Summen sorgen für die Datenintegrität. Die Replizierung erfolgt als selbstheilender Vorgang und sorgt damit für Fehlertoleranz.

Nur nichts teilen schafft Zuverlässigkeit

Bei der Verwendung von HDFS auf lokalem Direct Attached Storage (DAS) werden die HDFS-Blöcke als Dateien in einem speziellen Verzeichnis abgelegt. Die zugewiesenen Laufwerke werden normalerweise über SAS oder SATA verbunden. Keine Storage-Daten werden mit anderen Knoten geteilt.

So ist sichergestellt, dass das System auch auf billiger, unzuverlässiger Hardware läuft.

Die Vorzüge von HDFS auf lokalem DAS liegen darin, dass Schreibvorgänge parallel erfolgen. Es werden drei Kopien für jeden Dateiblock angelegt (eine Kopie lokal, zwei über remote). Der Jobtracker versucht, Lesevorgänge möglichst lokal durchzuführen.

Nachteilig ist, dass HDFS kein Kernel-basiertes Portable Operating System Interface (POSIX) ist. Es ist deshalb inkompatibel mit Standard-Anwendungen und –Werkzeugen. Die Replizierungskosten sind hoch im Vergleich zu Shared-Disk-Strukturen. Außerdem ist der lokale Speicher (DAS) der Flaschenhals bei der Skalierbarkeit von HDFS auf DAS.

Inhalt des Artikels:

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 42847966 / Big Data)