Mobile-Menu

Definition Was ist die Google Cloud Platform?

Autor / Redakteur: Thomas Joos / Rainer Graefen

Big Data erfordert leistungsfähige Server und Anwendungen, die eine große Menge an Daten effizient verarbeiten können. Dafür eignen sich Cloud-Dienste wie die Google Cloud Platform hervorragend.

Anbieter zum Thema

Google bietet in seiner Google Cloud Platform zahlreiche Dienste für die Verarbeitung von Big-Data-Anfragen an.
Google bietet in seiner Google Cloud Platform zahlreiche Dienste für die Verarbeitung von Big-Data-Anfragen an.
(Bild: Google/T. Joos)

Google bietet mit seiner Google Cloud Platform umfassende Cloud-Dienste an. Ein kostenbefreiter Testzeitraum für die Cloud Platform soll die ersten Hemmschwellen senken. In der Testversion lässt sich die Google Cloud Platform 60 Tage kostenlos nutzen, beziehungsweise bis die 300 Euro kostenloses Volumen aufgebraucht sind.

Die Google Cloud Platform bietet nicht nur Funktionen für Big Data, sondern auch für das Internet of Things (IoT). Vorteil der Google Cloud Platform ist vor allem, dass Google hier die gleiche Infrastruktur nutzt, die auch für seine anderen Dienste genutzt werden, zum Beispiel Google Mail, die Google-Suche oder YouTube. Außerdem stellt Google zahlreiche Entwicklerwerkzeuge zur Verfügung, mit denen sich eigene Apps erstellen lassen, die wiederum die verschiedenen Dienste in der Google Cloud Platform nutzen.

Hadoop, Spark, Pig und Hive in der Google Cloud Platform nutzen

Neben eigenen Big-Data-Diensten, wie zum Beispiel BigQuery, Cloud Dataflow, Datalab und Cloud Pub/Sub, lassen sich auch externe Dienste wie Spark und Hadoop direkt aus der Google Cloud Platform heraus nutzen. Die Erstellung von Clustern zur Nutzung dieser Apache-Dienste erfolgt in der Weboberfläche der Google Cloud Platform. Bei Google Dataproc handelt es sich also um den mächtigsten Bereich der Big Data Tools der Google Cloud Platform.

Der Vorteil dabei ist die sehr flexible Skalierbarkeit der Google Cloud Platform. Außerdem lassen sich auch Datenquellen außerhalb der Google Cloud Platform anbinden, ebenso wie sich die Größe und Leistung der Clusterknoten auf wachsende Bedürfnisse anpassen lässt.

Big Query – Enterprise Cloud Data Warehouse

Bei BigQuery handelt es sich um ein Enterprise Data Warehouse, das enorme Datenmengen bis in den Petabyte-Bereich verarbeiten kann. Zur Analyse lassen sich auch SQL-Befehle verwenden. Der Vorteil der Umgebung besteht darin, dass die Lösung keinerlei Infrastruktur zur Verfügung stellt. Das heißt, es sind keine Datenbank-Administratoren notwendig und keine virtuellen Server, die verwaltet werden müssen. Der Fokus der Lösung ist klar auf die Verarbeitung der Daten gelegt. Mit BigQuery lassen sich Big-Data-Analysen erstellen.

Google gibt an, dass sich Daten im Terabyte-Bereich in wenigen Sekunden analysieren lassen, während Daten im Petabyte-Bereich etwas mehr Zeit erfordern, um analysiert zu werden. Die Daten werden automatisch verschlüsselt. Außerdem lassen sich auch Replikationen durchführen.

Für die Verarbeitung der Daten lassen sich auch Berechtigungen vergeben. Dazu stehen verschiedene Rollen zur Verfügung, die Administratoren den Anwendern zuweisen können, um Daten zu verarbeiten. Für die Authentifizierung können Unternehmen das Google Cloud Identity & Access Management System einsetzen. Außerdem bietet Google die Speicherung der Daten in europäischen Rechenzentren an.

Cloud Dataflow – Batchverarbeitung nutzen

Bei Cloud Dataflow handelt es sich um eine Managed-Service-Lösung in der Google Cloud Platform, die für das Data Processing – inklusive ETL und Batchverarbeitung – geeignet ist. Ressourcen-Management oder die Optimierung der Leistung ist bei diesem Dienst nicht notwendig, da alle Ressourcen direkt aus der Cloud zur Verfügung gestellt werden. Mit dem Unified Programming Model bei Cloud Dataflow lassen sich umfassend Daten verarbeiten. Für die Programmierung des Dienstes kann zum Beispiel auf das Apache Beam SDK gesetzt werden. Cloud Dataflow arbeitet mit Cloud Storage, Cloud Pub/Sub, Cloud Datastore und Cloud Bigtable genauso zusammen, wie mit BigQuery.

Cloud Datalab – Datenvisualisierung

Datalab baut auf Jupyter auf, auch als „IPython“ bekannt. Der Clouddienst Datalab steht aktuell als Beta-Version zur Verfügung. Mit dem Dienst lässt sich Big Data analysieren und visualisieren, zum Beispiel Geodaten auf einer Weltkarte. Auch dieser Dienst arbeitet mit den anderen Produkten in der Google Cloud Platform umfassend zusammen. Die Analyse der Daten aus dem Datenspeicher in Google, lokalen Datenspeichern oder Datenspeicherns aus VMs, die auf Basis von Google Computer Engine zur Verfügung gestellt werden, sind problemlos möglich. Als Abfragemodell stehen Python, SQL und JavaScript zur Verfügung, zum Beispiel um BigQuery-Daten mit einzubeziehen.

Sobald die analysierten Daten optimal transformiert wurden und das Analysemodell zufriedenstellend implementiert wurde, lassen sich die Daten mit einem Mausklick zu BigQuery übertragen und weiternutzen. Auch Machine-Learning-Modelle lassen sich dadurch umsetzen. Zur Visualisierung eignet sich Google Charts oder matplotlib.

Cloud Pub/Sub – Daten in Echtzeit streamen

Mit Cloud Pub/Sub lassen sich Daten und Nachrichten in Echtzeit direkt aus der Cloud streamen. Cloud Pub/Sub arbeitet nicht nur mit Produkten in der Google Cloud Platform zusammen, sondern auch mit anderen Clouddiensten oder Anwendungen, die Unternehmen im eigenen Netzwerk zur Verfügung stellen. Cloud Pub/Sub setzt dabei auf die gleichen Techniken, die auch die Google-Suchmaschine einsetzt, aber auch Google Mail oder Google Ads. Google gibt den maximalen Verarbeitungsumfang mit einer Million Nachrichten pro Sekunden an. Die Daten lassen sich zur Übertragung verschlüsseln. Außerdem bietet Cloud Pub/Sub eine Replikation des Datenspeichers an. Google Cloud Dataflow verarbeitet die Daten in Echtzeit, die Cloud Pub/Sub streamt.

(ID:44733394)