Buchbesprechung - Big Data im Wiley-Verlag "powered by" EMC

Big Data ist eine Reise, bei der die Suche das Ziel ist

| Autor / Redakteur: Dr. Jakob Jung / Rainer Graefen

So weit die Geschäftstheorie, aber Schmarzo gibt auch eine Anleitung, wie dies technisch umgesetzt werden kann. Es ist eine neue Architektur nötig. Die großen Pioniere sind mit der traditionellen Online Transaction Process (OLTP) schnell an Grenzen gestoßen, aber Amazon, Google und Facebook haben Modelle entwickelt, um mit großen Datenmengen fertig zu werden.

Das Wesentliche steckt in weniger Daten

Gemeinsam ist bei ihnen das Vertrauen auf Open Source Stacks. Apache Hadoop hat sich als de facto Standard für ein Big Data Framework herauskristallisiert.

Hadoop verwendet ein Paradigma namens MapReduce. MapReduce splittert Anwendungen in Fragmente auf, die auf einem einzigen Knoten im Cluster abgearbeitet werden können. Hadoop verwendet weiterhin das Dateisystem Hadoop Distributed File System (HDFS), das Daten auf Knoten abspeichert und somit für hohe Bandbreiten im gesamten Cluster sorgt. Sowohl HDFS als auch MapReduce können den Ausfall eines Knotens im Netzwert automatisch ausgleichen.

Apache Hive ist eine Data Warehouse Infrastruktur, die auf Hadoop aufbaut und Zusammenfassungs-, Suche- und Analysefähigkeiten bietet. Hive wurde ursprünglich von Facebook konzipiert, wird aber jetzt auch von anderen Unternehmen weiterentwickelt. Apache HBase ist eine nichtrelationale verteilte Datenbank, die ebenfalls Teil des Hadoop Stacks ist und auf HDFS läuft.

ETL kontra Data Federation

Pig ist eine Programmiersprache, die die Entwicklung von MapReduce Programmen erlaubt und ähnlich aufgebaut ist wie SQL. Diese Standard Komponenten einer Hadoop Architektur sollten laut Schmarzo zu einer erweiterten Architektur ausgebaut werden.

Er empfiehlt hierfür die neuen Konzepte der EMC-Tochter Pivotal. Pivotal bietet unter anderem die Möglichkeit, MapReduce Anwendungen mit der Standard SQL-Sprache zu entwickeln, was Zeit und Kosten für das Erlernen einer neuen Programmiersprache erspart.

Auch zahlreiche neue Analysewerkzeuge und Analysealgorithmen sind auf Open Source Basis erhältlich.

Um Big Data in die traditionelle Data Warehouse Welt zu bringen, ist ein Umdenken nötig. Der traditionelle Extract, Transform,Load (ETL) Zugang ist überholt und muss durch den Ansatz der Data Federation ersetzt werden.

Fazit

Massiv parallele Prozesse (MPP) Datenbanken können erhebliche Leistungsgewinne schaffen. In-Database-Analyse erlaubt es, große Datenmengen zwischen dem Data Warehouse und den Analyse Umgebungen zu verschieben.

Wichtig zu betonen ist es, dass Big Data eine Reise ist, auf der es kein vorgegebenes Ziel gibt. Die Marktdynamik ändert sich dank Big Data bereits, weil die großen Internet-Pioniere diese Konzepte bereits verwenden.

Wichtig bei der Reise ist es auch, dass alle Mitarbeiter mitgenommen werden und dass deren Interessen und Ziele berücksichtigt werden. Dann kann Big Data den Wertschöpfungsprozess entscheidend verbessern und neue Geschäftschancen und Einkommensquellen erschließen.

Inhalt des Artikels:

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 42721401 / Big Data)