Suchen

„Big data, the cloud way“ Google erschafft cloud-basiertes Big-Data-Universum

| Autor / Redakteur: William Vambenepe * / Rainer Graefen

Google kündigte an, mit seinen Big-Data-Lösungen einen großen Schritt nach vorn zu machen. Im offiziellen Google Cloud Platform Blog „Big data, the cloud way“ erläutert Product Manager William Vampenebe, was es genau bedeutet, Big Data auf die Cloud-Art zu nutzen und wie man sich Datenanalysen mit Google Cloud Platform vorstellen muss:

Firmen zum Thema

Big Data in der Cloud macht Unternehmen zu Delphinen - effizienter und beweglicher im Umgang mit ihren Daten und deren Analyse.
Big Data in der Cloud macht Unternehmen zu Delphinen - effizienter und beweglicher im Umgang mit ihren Daten und deren Analyse.
(Bild: VBM-Archiv)

Big Data verspricht einen besseren und schnelleren Einblick in Unternehmen. Allerdings wird daraus oft ein Infrastrukturprojekt. Aber warum? Zum Beispiel dadurch, dass eine Flut von Informationen gesammelt, verknüpft und angereichert werden muss, um Echtzeit-Erkenntnisse gewinnen zu können. Doch muss man jetzt davon ausgehen, dass solche Kraftakte naturgemäß mit einem enormen Aufwand in Sachen Ressourcenmanagement und Systemadministration verbunden sind? Auf keinen Fall. Nicht in der Cloud. Nicht, wenn Unternehmen Big Data auf die Cloud-Art nutzen.

Big Data auf die Cloud-Art zu nutzen, bedeutet produktiver bei der Erstellung von Applikationen zu sein, und zwar durch schnellere und bessere Einblicke und ohne sich um die Infrastruktur kümmern zu müssen. Genauer gesagt umfasst dies:

  • NoOps: Der Cloud-Provider sollte eine skalierbare, zuverlässige Infrastruktur bereitstellen, verwalten und nach Bedarf aktualisieren. „NoOps“ bedeutet, dass die Plattform diese Aufgaben und Optimierungen abnimmt, sodass man sich voll auf die Analyse und Auswertung der Daten konzentrieren kann.
  • Kosteneffizienz: Die „NoOps“-Lösung ist nicht nur benutzerfreundlich und flexibel, sie bietet auch eindeutige Kostenvorteile, da sie betriebliche Abläufe einspart. Und Big Data über die Cloud bietet noch weitere Kosteneinsparungen – die Plattform skaliert und optimiert automatisch die genutzte Infrastruktur und macht ungenutzte Ressourcen wie Idle Cluster überflüssig. Die Kosten können nach individuellen Kosten-Nutzen-Erwägungen über die Anzahl der Anfragen und die Latenzzeit der Prozesse gesteuert werden. Es ist nicht nötig, Systeme umzustellen, um die Kosten zu optimieren.
  • Sichere, einfache Zusammenarbeit: Dateien können in Google Cloud Storage oder Tabellen in BigQuery mit Mitarbeitern innerhalb und außerhalb Ihres Unternehmens gemeinsam genutzt werden, ohne diese kopieren oder Zugriff auf die Datenbank gewähren zu müssen. Es gibt immer nur eine Datei zu kontrollieren und auf die nur autorisierte Nutzer zugreifen können, ohne dass dadurch Kosten entstehen oder der Ablauf der Prozesse beeinträchtigt wird.

Goggle hat den Big-Data-Weg für die gesamte Industrie gebahnt ‒ wenn Unternehmen also auf Google Cloud Platform setzen, dann heißt das auch, Big Data auf die Cloud-Art mit Hilfe hochmoderner Features zu nutzen. Google Cloud Dataflow ermöglicht standardmäßig die zuverlässige Verarbeitung von Daten in Echtzeit, ohne dass hierfür Extraarbeit nötig wäre. Aber eine einfache und zuverlässige Datenverarbeitung bedeutet nicht, dass es keine Option mehr gibt, Batch-Prozesse durchzuführen.

Dieselbe Prozess-Pipeline kann auch im Batch-Modus ausgeführt werden, den Unternehmen nutzen können, um Kosten zu senken oder historische Daten zu analysieren. Die konsistente Verarbeitung großer Datenmengen ist nun kein komplexes, mühsames Unterfangen mehr, das man nur in sehr kritischen Situationen auf sich nimmt. Mit Google Cloud Platform ist die Datenanalyse schnell, kostengünstig und einfach zu bewerkstelligen.

Google Cloud Dataflow als Beta-Version

Wir haben auf dem Hadoop Summit in Brüssel angekündigt, bei unseren Big-Data-Lösungen einen großen Schritt nach vorn zu machen – indem wir nun jedermann ermöglichen, Big Data über die Cloud zu nutzen. Heute verhindert nichts und niemand mehr, die Ablauflogik, angewandt im gewählten Streaming oder im Batch-Modus, über einen vollständig verwalteten Verarbeitungsservice laufen zu lassen.

Der Anwender schreibt einfach ein Programm, schickt es ab und alles Weitere erledigt Cloud Dataflow. Es müssen keine Cluster mehr verwaltet werden, da Cloud Dataflow die benötigten Ressourcen startet, diese automatisch (innerhalb der vorgegebenen Grenzen) skaliert und sie nach Ablauf der Prozesse wieder beendet. Man kann direkt starten.

Google BigQuery in europäischen Zonen verfügbar

BigQuery, der zentrale API-gesteuerte Cloud-Service für SQL-Analysen, bietet neue Sicherheits- und Leistungsfunktionen. So wird beispielsweise das Teilen von Daten durch die Einführung von Berechtigungen auf Zeilenebene einfacher und flexibler. Einfache Dateneinspielung (wir haben die Aufnahmegeschwindigkeit auf 100.000 Zeilen pro Sekunde und Tabelle erhöht), praktisch unbegrenzter Speicherplatz und die enorm hohe Abfrageleistung auch bei sehr großen Datenmengen machen BigQuery zur leistungsfähigen Plattform für die Speicherung, Analyse und gemeinsame Nutzung strukturierter Daten.

Außerdem unterstützt BigQuery doppelte Datensätze und Abfragen innerhalb von JSON-Objekten für lose strukturierte Daten. Ab sofort bietet BigQuery zudem eine neue Funktion zur Isolierung geographischer Daten, falls Daten in den europäischen Zonen von Google Cloud Plattform gespeichert werden sollen. Um diese Option zu nutzen, muss nur Googles technischer Support kontaktiert werden.

Umfassende Big-Data-Services

Google Cloud Pub/Sub ist ein vollständig verwalteter Dienst zur skalierbaren, zuverlässigen und schnellen Lieferung. Zusammen mit der interaktiven Dateneinspielung mit BigQuery und der Stream-Verarbeitung mit Cloud Dataflow sorgt dieser Dienst für eine umfassende Datenverarbeitung bei einer extrem niedrigen Latenzzeit. Die Google Cloud Platform ermöglicht die Verarbeitung von Kundenaktionsdaten, Anwendungsprotokollen oder IoT-Ereignissen in Echtzeit. Dabei übernimmt Google alle Skalierungs- und Administrationsaufgaben. Unternehmen können sich somit ganz darauf konzentrieren, was passieren soll, und nicht wie.

Hadoop, Spark, Flink und andere Open-Source-Tools, die ursprünglich als „On-Premise“-Lösungen gedacht waren, können zusammen mit Big Data über die Cloud weiter verwendet werden. Um das reichhaltige Open-Source-Big-Data-Universum weiterhin nutzen zu können, haben wir eigene Schnittstellen zu Google Cloud Storage und BigQuery sowie ein Tool zur automatischen Installation eines Hadoop/Spark-Clusters entwickelt

Weitblick schaffen

William Vambenepe, Google.
William Vambenepe, Google.
(Bild: Google)
Die vereinfachte Darstellung (siehe Abb.) zeigt, wie die Datenverarbeitungsservices von Google Cloud Platform miteinander zusammenhängen und die Phasen der Datenverarbeitung unterstützen. Mit Hilfe einer Taucherausrüstung können Menschen unter Wasser arbeiten, erreichen jedoch nicht annähernd die Effizienz und Beweglichkeit von Meerestieren. Mit Big Data in der Cloud sind Unternehmen Delphine, keine Taucher!

* Der Autor William Vambenepe ist Product Manager bei Google.

(ID:43340822)