Ein Elefant erfreut die kindlichen Herzen der Open Source Community

Die kurze Geschichte von Hadoop

| Autor / Redakteur: Harald Sander / Rainer Graefen

Der kleine Elefant Hadoop erobert die Welt.
Der kleine Elefant Hadoop erobert die Welt. (Grafik: @pixout-webdesign.de)

Vielleicht wird es eines Tages Internet-Märchenbücher geben. Dann wird dort sicherlich die Geschichte vom kleinen Elefanten Hadoop zu lesen sein, der extrem neugierig ist und innerhalb kürzester Zeit in jedem Heuhaufen die Stecknadel findet.

Douglass Read Cuttings Sohn hatte seinem Spielzeugelefanten den Namen Hadoop gegeben, ist im Internet zu lesen. Doug Cutting selbst war zu diesem Zeitpunkt Entwickler von Open-Source-Suchtechnik.

Von ihm stammt der Suchindizierer Lucene und die nun weithin bekannte Hadoop-Plattform. Die einfache Aussprache und die sehr gute „Googlebarkeit“ überzeugten ihn von der Wortschöpfung seines Sohnes.

Doug Cuttings

Cuttings ist eine zentrale Figur in der Open-Source-Softwarebewegung, der auch die Bedeutung des von den Google Labs veröffentlichten MapReduce-Algorithmus erkannte und darum herum das Hadoop-System entwickelte. Hadoop rechnet mit einem großen Cluster von x86-Standard-Hardware.

Damals, so um die Jahreswende 2003/2004 arbeitete der Suchspezialist noch bei Yahoo, wechselte dann aber zu Cloudera und wurde 2010 zum Vorsitzenden der Apache Software Foundation gewählt.

Jay Parikh

Hadoop ist natürlich nicht die Leistung eines einzelnen Menschen. Verständlicherweise hat neben Google auch Facebook viele Finger und auch viele Inder um den Entwicklungschef Jay Parikh ins Entwicklerspiel gebracht, die der Hadoop-Plattform viel Feinschliff verpassten und auch viele grobe Schwächen beseitigten, die erst den professionellen Einsatz ermöglichten.

Die Facebook-Entwickler lösten die Fesseln des an ein Rechenzentrum gebundenen Hadoop-Clusters auf, so dass die Rechnerinfrastruktur heute auch in global verteilten Rechenzentren arbeitsfähig ist. Weitere Entwicklungen durch Facebook sind Hive und Presto.

Google Basics

Mittels Hive kann man die Hadoop-Daten sehr einfach abfragen. Und Presto ist ein rasant arbeitendes Abfrage-Werkzeug, das fast in Echtzeit 250 Petabyte Daten durchsuchen kann. Das funktioniert selbstredend nur mit einer dazu passenden Datenbank.

Bei Facebook hat man Googles Vorarbeiten der Entwicklungsbeschreibungen zur Datenbanksoftware BigTable benutzt, um mit HBase eine eigene massiv-parallele Datenbank zu konstruieren, die auch von Netflix und Digg benutzt wird.

HBase ist keine relationale Datenbankmaschine, sondern eine Datenbank mit dokumentenorientierten Baumstrukturen, die aktuell als „Not only SQL Database“ (NoSQL-Datenbank) bekannt werden. Die Datenbanktabellen mit Spalten und Reihen dominieren hier nicht mehr, ebenso wenig wie es noch Binary Large Objekts gibt, da jedes Datum indiziert ist.

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 42602280 / Big Data)