Suchen

Interview mit Jens Bussmann, Google, über die "große Abfrage" Jetzt liefert ein Google-Service die Antworten auf alle Business-Fragen

Redakteur: Rainer Graefen

Auf der Storage & Datamanagement Technology Conference sorgte Jens Bussmann für bewegte Debatten. Wir sprachen mit ihm über den Google-Service Big Query, der allen Unternehmen die Chance bietet, die Unternehmensdaten ohne Hardware-Investitionen auf der Suchmaschinen-Infrastruktur analysieren zu lassen.

Firmen zum Thema

Jens Bussmann, Sales Manager Cloud Plattform bei Google
Jens Bussmann, Sales Manager Cloud Plattform bei Google
(Foto: Google)

Alle reden über die Echtzeitanalyse der Unternehmensdaten und träumen davon wie man mit den Ergebnissen die Unternehmensumsätze ohne Zeitverzug steigern könnte. Die Lizenzkosten und die zwingende Aufrüstung des Serverspeichers dürfte vielen jedoch die Tränen in die Augen treiben.

Als preiswerte Alternative bietet sich die Ad-hoc-Analyse auf der leistungsfähigsten Suchmaschinen-Infrastruktur der Welt an. Google macht mit dem Pay-per-Use-Modell für die ERP-Analyse ernst und vielen Anbietern von Business-Intelligence-Lösungen starke Konkurrenz. Jens Bussmann stand uns Rede und Antwort.

Bildergalerie
Bildergalerie mit 13 Bildern

Die Preisfrage vorweg. Wie teuer ist der Google Dienst Big Query, mit dem man unternehmensspezifische Datenanalysen direkt im Google Universum durchführen kann?

Bussmann: Bei einem On Demand Service, einem Mietservice wie wir ihn anbieten, ist das leicht zu errechnen. Die Kosten berechnen sich aus der Multiplikation des Preises pro Gigabyte und der gesamten hochgeladenen Datenmenge in GByte. Es sind sonst keine weiteren Investitionen vorzunehmen wie bei klassischen BI-Tools (Business Intelligence), es wird keine Infrastruktur benötigt, die Nutzung ist somit, bis auf die Transportkosten, vollständig transparent. Dazu kommen noch die Kosten für eine Abfrage.

Der Anwender hat es insofern mit zwei Kostenblöcken zu tun: Zum einen für die Speicherung der Daten, zum anderen für die Abfrage der Daten. Ein Gigabyte Speicherbedarf pro Monat kostet 12 US-Cent, und die interaktive Abfrage über die gewählte Datenmenge wird von uns mit 3,5 US-Cent pro GByte, respektive 2 US-Cent für eine Batch-Abfrage, abgerechnet.

Muss der Kunde einen langfristigen Vertrag mit Google eingehen, um das Angebot nutzen zu können?

Bussmann: Eine Option, die Google anbietet, ist eine kostenlose Online-Benutzung. Das heißt, die ersten 100 GByte pro Monat sind gratis. Die Daten werden per verschlüsselter Internet-Verbindung hochgeladen, und der Anwender kann kostenfrei ausprobieren, ob unsere Form der Datenanalyse für ihn tauglich ist. Alternativ können sich Unternehmen oder Entwickler online über unsere Website registrieren oder direkt über einen Google Enterprise-Vertriebsmitarbeiter einen Vertrag mit uns abschließen. Der Service wird ohne Vertragslaufzeiten angeboten und kann stündlich gekündigt werden. Die hochgeladenen Daten und Ergebnisse bleiben selbstverständlich im Besitz des Anwenders. Sie können direkt über die Website gelöscht oder auch wieder zurück übertragen werden.

Welche Datenformate können analysiert werden?

Bussmann: Eine kleine Vorarbeit ist notwendig, um Datenbanktabellen zu übermitteln. Wir verarbeiten bevorzugt das CSV-Format. Diese Comma-separated-values erzeugt aber jede Datenbank ohne größere Umstände beim Abspeichern der Daten. Eine Alternative wäre das kompakte Json-Datenformat, die JavaScript Object Notation.

Gut, das hört sich ziemlich einfach an. Wäre ich allerdings ein Mittelständler, der noch nie Daten analysiert hat, dann wüsste ich wahrscheinlich gar nicht, welche Daten ich auswählen sollte. Hat Google da ein paar Tipps?

Bussmann: Das Problem einer Vorauswahl hat der Anwender eigentlich nur, wenn die BI-Infrastruktur nur für ein begrenztes Datenvolumen ausgelegt ist. Bei Googles Service Big Query können Sie Terabytes an Daten oder anders ausgedrückt Milliarden an Zeilen hoch laden und in wenigen Sekunden analysieren lassen. Sie könnten also unbeschränkt alle Daten ohne Vorsortierung oder Aggregation in die Auswertung einbeziehen. Vom Speichervolumen bis zur Auswertegeschwindigkeit sind wir auf größte Datenmengen vorbereitet.

Bussmann:

Storage & Datamanagement Technology Conference 2013 in Hamburg
Bildergalerie mit 41 Bildern

Kann ich auch Daten aus sozialen Netzwerken mit meinen eigenen Unternehmensdaten korrelieren?

Bussmann: Sie können in unseren Service Big Query alle Daten, die sie haben, einstellen und abfragen. Insofern können Sie natürlich auch alle statistischen Daten, die sie aus anderen Online-Werbequellen besitzen, mit einbeziehen. Das geht nicht nur mit DoubleClick-Datensätzen, sondern mit beliebigen Datensätzen anderer Werbeanbieter. Bei unserer Display-Werbung DoubleClick wären das mehrere Gigabyte, die der Kunde pro Tag bekommt. Das kann mit eigenen Daten in Big Query verbunden, aggregiert und ausgewertet werden. Soweit dem Kunden die Daten von anderen Werbedienstleistern zur Verfügung gestellt werden, ist deren Auswertung für uns kein Problem.

Besteht auch die Möglichkeit Daten direkt über anwendungsspezifische Schnittstellen einzubeziehen und dann kontinuierlich die Informationen zu analysieren?

Bussmann: Sie können z. B. über eine REST-API die Daten in Big Query hochladen. Manche unserer Technology-Partner wie Talend oder Informatica bearbeiten mit ETL-Software (Extract, Transform, Load) unterschiedlichste Datenbestände, normieren diese und laden dann die aufbereiteten Daten auf unseren Service hoch. Sie können ebenfalls SAP, Oracle oder andere ERP-Datensätze mit Social Media Streams von Facebook, Twitter kombinieren und automatisiert, mindestens aber halbautomatisiert, importieren.

Wäre es möglich mit dem Big-Query-Service auch Daten in Echtzeit zu analysieren wie das inzwischen von vielen Experten propagiert wird?

Bussmann: Sie haben bei uns immer einen kleineren Zeitverzug, da die Daten nicht im Stream analysiert werden, sondern erst einmal hochgeladen werden müssen. Für Echtzeitanalysen ist unser Tool nicht konzipiert. Bei uns „fährt“ der Anwender Ad-hoc-Analysen gegen den Datenbestand und bekommt innerhalb von Sekunden Ergebnisse geliefert.

Muss man Spezialisten beschäftigen, um Standardabfragen zu erstellen, die dann jeder per Mausklick abrufen kann?

Bussmann: Es gibt mehrere Vorgehensweisen. Google bietet ein Webinterface an. Dort wird mit einer SQL-ähnlichen Abfragesprache gearbeitet. Dann gibt es noch ein Command-Line-Tool, es gibt auch Tools von Partnern, die eine grafische Schnittstelle bereitstellen. Zum Beispiel QlikView von der Firma QlikTech, Tableau Software oder BIME, die per Drag-and-Drop-Menüs arbeiten, die auf ungeschulte Endbenutzer zugeschnitten sind. Eine komplexere Möglichkeit bietet die Google App Engine, mit der man eigene Abfrage-Frontends programmieren kann. Der Nutzer muss also nicht zwingend Datenbank-Know-how besitzen, um mit unseren Services Antworten zu bekommen. Jeder kann sofort Erfolgserlebnisse haben. Das ist schon immer der Grundgedanke unserer Dienste.

Glauben Sie, dass die Datenanalyse im Zuge des Big Data Hypes alle Firmen erreichen wird, oder ist das doch nur eine Domäne der großen, die sich das leisten können?

Bussmann: Im Grunde ist Datenanalyse für jedes Unternehmen relevant. Es braucht jedoch eine Zwecksetzung, da sich mit falschen Fragestellungen aus großen Datenmengen alles Mögliche rauslesen lässt. Aber es gibt umgekehrt keine Frage, die nicht beantwortet werden könnte. Während die Analyse von Verkaufstransaktionen etwas für den Einzelhandel ist, lassen sich Logdaten von Maschinen für Benutzungstrends und Qualitätssicherung etc. verwenden, die Auswertung von Telemetriedaten, also von Messdaten über Funk, wird sicherlich ein großes Feld werden, denken Sie an Autos, oder ein generelles Thema über alle Branchen hinweg, ist die Auswertung von Kundendaten, um diese gezielter anzusprechen.

Die Wirtschaftlichkeit von Big-Data-Analysen ist schwer zu ermitteln. Große Investitionen sind notwendig und schwer auf die vielen kleinen Abfragen umzurechnen. Wie würden Sie den Unternehmen Mut zum Einstieg machen?

Bussmann: Wie eingangs erwähnt bringt ein OnDemand Service wie Google BigQuery keinerlei Anfangsinvestitionen mit sich. Bei den Lebensmitteldiscountern z.B. gehört die Datenanalyse schon zum täglichen Brot. Die Ergebnisse sind sofort in Zahlen messbar. Wenn man es schafft, den Einkauf um fünf Prozent zu optimieren, dann ist sofort sichtbar, dass sich die Investition gelohnt hat. Schwerer berechenbar, aber für Unternehmen sehr zukunftsträchtig, ist es, wenn sie die Datenanalyse auf strategische Fragen anwenden. Sie bekommen mehr Einblick in die eigenen Geschäftsprozesse, sie wissen wer und wo ihre Kunden sind, sie können ihre Kundengruppen besser strukturieren, und das mit allen positiven Rückwirkungen auf die Konzeption einer optimalen Produktpalette. Wenn Sie es dann schaffen, dieses Expertenwissen auf weitere Mitarbeiter zu verteilen, dann wird ihr Unternehmen agiler auf dem Markt operieren können. Es ist allerdings schwerer in Zahlen auszudrücken als der oben erwähnte Einkaufsvorteil, wenn die positiven Wirkungen erst über Jahre hinweg sichtbar werden.

Wie viel Hardware hat Google auf den Dienst Big Query „geworfen“?

Bussmann: Details darf ich leider nicht verraten. Aber so viel ist sicher: Es läuft alles auf unserer eigenen Infrastruktur. Weil es nicht passendes zu kaufen gab, haben wir selbst seit 1998 die Hardware für unsere Bedürfnisse maßgeschneidert. Und wir haben damit, wie Sie wissen, eine riesige Big-Data-Herausforderung gelöst, deren Inhalt die Indizierung des gesamten Internets ist. Diese Infrastruktur ist konzipiert, um mit Datenanalysen auf Internetgröße und darüber hinaus umzugehen.

Hadoop mit dem dazugehörigen Dateisystem HDFS ist in aller Munde, wenn es um Big Data geht. Viele Hersteller erweitern die Funktionalitäten. Ist Hadoop aus Sicht von Google das zentrale Werkzeug für Datenanalysen?

Bussmann: Es ist wahrscheinlich nicht das einzige Werkzeug oder Allheilmittel. Wahrscheinlich nein. Hadoop ist aktuell ein wichtiger Bestandteil, wenn es um die strukturierte Datenaufbereitung großer Datenmengen geht. Google selbst hat mit Map Reduce eine wichtige Open-Source-Funktionalität von Hadoop entwickelt. Unser Dienst Big Query ist ein komplementäres Tool zu Hadoop. Google selbst nutzt nicht Hadoop direkt, sondern setzt das von uns entwickelte Map Reduce Framework ein. Mit Big Query adressieren wir das Thema Ad-hoc-Analysen von mehreren Terabyte großen Datensätzen. Hadoop ist mit Sicherheit nicht das letzte Wort bei Big Data, wir werden da in den nächsten Jahren noch einige interessante Weiterentwicklungen im Markt sehen.

(ID:39355900)