Google Cloud Platform Lakehouse von Databricks jetzt auch bei Google
Databricks, ein US-Start-up im Bereich Datenanalyse, kündigt an, seine Technologie Lakehouse jetzt auch auf der Google Cloud Platform (GCP) bereitzustellen. Die Lakehouse-Technologie vereinigt Eigenschaften strukturierter mit denen für unstrukturierte Datenspeicherung. Die Technologie soll den Parallelbetrieb von Datalakes und Data Warehouses in vielen Fällen überflüssig machen. „Das hat den Vorteil, dass alle, die Daten analysieren, auf einer einzigen Plattform arbeiten und dieselbe Datenqualität nutzen“, erklärt Joel Minnick, Vice President Marketing des Unternehmens.
Anbieter zum Thema

Databricks wird bei GCP (Google Cloud Platform) zum ersten Mal in einer reinen Kubernetes-Umgebung, nämlich Google Kubernetes Engine, aufgesetzt. An Funktionalität und Erscheinungsbild ändert das aber gegenüber anderen Cloud-Bereitstellungen bei AWS und Azure nichts. „Wir sind konsistent auf allen drei Hyperscaler-Plattformen und der erste und einzige Anbieter, der das von sich behaupten kann“, erklärt Minnick.
Integration mit Google BigQuery
Auf GCP wird Lakehouse eng mit Googles Analytik-Plattform integriert. Sie können damit Data Lakes und Data Warehouses aufbauen und Business-Intelligence-Tools nutzen. Vorgefertigte Konnektoren gibt es unter anderem zu BigQuery und Google Cloud Storage. Mit ihnen lassen sich dann Aufgaben wie Data Engineering, Data Science, maschinelles Lernen und Analysen durchführen, wobei auf Google-Analytik-Tools zurückgegriffen wird.
In Databricks erstellte Modelle lassen sich mit Google AI Platform zügig trainieren und bereitstellen. Dabei werden die Datenworkflows aus Databricks übernommen. Zudem profitieren Anwender, die Databricks auf GCP nutzen, von allen üblichen GCP-Standardservices wie etwa Billing, Management oder Sicherheitsfunktionen.
Besonders vorteilhaft ist die neue Angebotsform für Kunden, die bereits große Datenbestände in GCP halten. Kubernetes-Anwender dagegen fühlten sich nicht speziell von GCP angezogen, auch wenn Databricks dort auf einer Kubernetes-Umgebung läuft.
Weniger Aufwand durch einheitliche Gestaltung
„Viele Kunden nutzen heute die Services mehrerer Hyperscaler und brauchen daher dort jeweils auch Analytik“, erklärt Minnick. Solche Konstellationen kämen auch durch Aufkäufe anderer Firmen häufig zustande. Diesen Anwendern könnte jetzt eine einheitlich gestaltete Databricks-Umgebung auf allen drei großen Plattformen angeboten werden, was Training und andere Aufwände verringere.
Datenbestände, die bei anderen Hyperscalern liegen, kann die GCP-Instanz von Databricks allerdings nicht analysieren. Dafür braucht man eine weitere Instanz in der jeweiligen Cloud. Es sei zwar prinzipiell denkbar, übergreifende Multi-Cloud-Data-Lakes aufzubauen, doch, so Minnick, täten dies Kunden nicht.
Der Roll-out befindet sich derzeit in einer privaten Preview. In einigen Wochen ist die Public-Preview-Phase erreicht, in Q2 folgt die allgemeine Verfügbarkeit in USA und Großbritannien, im Monatsrhythmus folgen dann weitere Regionen. Wann genau der Dienst in Kontinentaleuropa zugänglich ist, war noch nicht zu erfahren.
(ID:47158884)