Interview zum Thema Big Data „Die Bearbeitung gigantischer Datenmengen ist große Herausforderung und Chance zugleich“

Redakteur: Nico Litzel

Big Data – die explodierenden Datenmengen werden für immer mehr Unternehmen zu einer großen Herausforderung. Weltweit verdoppelt sich die Datenmenge alle 18 Monate. Storage-Insider.de hat sich mit den drei Experten Dr. Wolfgang Martin und Dr. Carsten Bange vom Forschungs- und Beratungsinstitut BARC sowie Holger Stelz von Uniserv unterhalten.

Firmen zum Thema

Storage-Insider.de sprach mit (von links nach rechts) Dr. Carsten Bange, Dr. Wolfgang Martin (beide BARC) und Holger Stelz von Uniserv
Storage-Insider.de sprach mit (von links nach rechts) Dr. Carsten Bange, Dr. Wolfgang Martin (beide BARC) und Holger Stelz von Uniserv

Storage-Insider.de: Big Data ist momentan ein Schlagwort, an dem keiner mehr vorbei kommt. Massendatenverarbeitung gibt es aber schon länger. Was ist das Neue daran, was verbirgt sich heute hinter dem Begriff?

Martin: Das Thema ist in der Tat nicht neu und geht zurück bis in die 90er-Jahre. Damals sprach man von data deluge – der Datenflut. Jetzt erlebt der Begriff ein Revival, zunächst einmal als ein hauptsächlich technologisches Thema, das sich peu à peu ganz vorsichtig in Richtung Business entwickelt.

Bange: Mittlerweile liegt das Hauptaugenmerk nicht nur auf den Tools. Bei Big Data geht es auch immer um Verfahren und Methoden für die hochskalierbare Sammlung und Analyse von Daten, die in verschiedenen, häufig nicht vorhersagbaren Strukturen vorliegen. Große Datenmengen und Anwenderzahlen müssen sehr schnell auswertbar sein – möglichst in Real-Time.

Martin: Big Data lässt sich mit den berühmten drei V beschreiben: Volume, Variety und Velocity. Das Volumen betrifft die riesige Datenmenge, die zu verarbeiten ist. Zur Veranschaulichung: Allein in 2012 wird mit einem Datenplus von 2,5 Zettabyte – das sind 2,5 Billionen Gigabyte – gerechnet. Variety steht für die Vielfalt und die Unterschiedlichkeit der Quellen. Prominenteste Datenproduzenten sind momentan die sozialen Medien. Bedenken Sie die Massen, die allein 900 Millionen Facebook-Mitglieder täglich erzeugen. Aber auch das mobile Internet mit seinen Verbindungsdatensätzen und Lokalisierungsdaten sowie Ablesegeräte, Sensoren und RFID-Chips sind nicht zu unterschätzende Datenlieferanten. Die dritte Komponente, Velocity, trägt der Anforderung Rechnung, all diese Daten jetzt und in Echtzeit analysieren zu müssen: Viele dieser Quellen sprudeln stetig und erzeugen fortwährend Datenströme.

Bange: Eine wesentliche Neuerung ist die integrierte Analyse polystrukturierter Daten. Das gab es so vorher nicht. Erst durch die vielen verschiedenen Datenproduzenten, wie sie Herr Dr. Martin nennt, ist diese Integration von strukturierten, semi- und unstrukturierten Daten zur Analyse notwendig geworden. Diese Art der Analyse wird zwar schon lang überlegt, aber jetzt gibt es auch immer mehr konkrete nutzenstiftende Anwendungsfälle in verschiedensten Branchen.

Vor welche Herausforderungen stellt Big Data Unternehmen?

Stelz: Die Bearbeitung gigantischer Datenmengen ist große Herausforderung und Chance zugleich. Entscheidend sind hierbei die passenden Strategien und Lösungen. Die größte Herausforderung ist es in meinen Augen, die Daten in eine Form zu bringen, die eine effektive Analyse zulässt und diese dann auch noch in einer annehmbaren Zeit durchführen zu können. Herkömmliche Verfahren sind dabei an ihre Grenzen gestoßen: Bestehende Formen der Datenhaltung und Analyse versagen bei der geforderten Geschwindigkeit. Selbst Real-Time ist oft noch nicht genug. Mammutprojekte, wie beispielsweise die Koordination des weltweit modernsten Verkehrsleit- und Steuerungssystems von Tokyo, erfordern mittlerweile „echte“ Echtzeit.

Martin: Für mich ist die erste und zunächst einmal wichtigste Herausforderung zu verstehen, welche Potenziale und welchen Nutzen Big Data meinem Unternehmen bietet. Der Nutzen, der heute bei den Big Data-Pionieren wie Amazon, eBay, Facebook und Google erreicht wird, betrifft vor allem die Bereiche Kundenorientierung, Customer Relationship Management und Customer Experience Management.

Bange: Auf Anwendungsseite werden analytische Applikationen eingesetzt oder geschaffen, welche die Big Data Datenwelten nutzbar machen. In vielen Unternehmen wird inhaltlich daran gearbeitet, Kennzahlen für neue Analysebereiche zu entwickeln oder Prozesse einzuführen, die gewonnenen Erkenntnisse auch sinnvoll zu nutzen und in einen Wettbewerbsvorteil umzusetzen.

Stelz: Gerade der Bereich Marketing kann im Moment stark davon profitieren, unstrukturierte Datenquellen jenseits der ERP- und CRM-Systeme – beispielsweise aus Facebook, Twitter, Blogs oder Foren – einzubeziehen und die Erkenntnisse daraus in Wettbewerbsvorteile zu verwandeln. Big Data erlaubt dem Marketing, die 360-Grad-Kundensicht zu einer 360-Grad-Marktsicht zu erweitern. So ermöglicht Big Data verborgene Trends sichtbar zu machen und liefert Informationen darüber, was den Kunden bewegt und wie wir besser und zeitnaher auf Kundenwünsche eingehen können. Das ist ein spannender Punkt, der in der nächsten Zeit mit Sicherheit immer weiter ausgebaut werden wird.

Welche Rolle spielt Information Governance vor dem Hintergrund von Big Data und welchen Nutzen haben Unternehmen davon?

Martin: Hier lässt sich ganz simpel sagen, dass mit der Menge der Unternehmensdaten – wenn ich also meine Unternehmensdaten um Big Data ergänze, anreichere oder auch nur Big Data ins Unternehmen für Pilotierungen hole – Information Governance immer wichtiger wird. Einfach gesagt sind immer mehr und mehr Daten zu speichern, zu verwalten und zu managen.

Stelz: Den Nutzen von Information Governance bestätigt auch das Ergebnis der Marktbefragung zu diesem Thema, die Dr. Martin zusammen mit Uniserv durchgeführt hat. Insgesamt gaben 52 Prozent der Befragten an, dass das Thema Information Governance große bis sehr große Bedeutung in ihrem Unternehmen habe, nur sechs Prozent schätzen die Bedeutung als gering oder sehr gering ein. Bei der Frage nach den Treibern von Information Governance stellten die Befragten Datenqualität, Steigerung der Prozess-Qualität, Erfüllung von Compliance-Anforderungen und Schaffen vertrauenswürdiger Daten auf die Spitzenplätze.

Bange: Neben den üblichen Governance-Aufgaben spielt es bei Big Data eine wesentliche Rolle, einen Überblick über die Systeme, Prozesse und Nutzer zu behalten. Das wird tendenziell schwerer für Unternehmen, da die Heterogenität von Daten und Technologien wächst. Big Data erfordert an einigen Stellen ein Umdenken. Die gewohnte relationale Datenbank reicht für Big-Data-Anforderungen in der Regel nicht mehr aus, sodass technologisch auch der Einsatz von analytischen Datenbanken oder NoSQL-Technologien sinnvoll sein kann. Skalierbarkeit und Parallelisierung von Prozessen müssen von Anfang an für alle Systeme konzipiert sein.

Ist der Nutzen von Information Governance messbar?

Martin: Er lässt sich am besten indirekt über die Prozesskosten und -risiken, die entstehen, wenn Prozesse diese Daten verwenden, bewerten. Falsche, unvollständige und dubiose Daten schaffen monetär messbare Prozesszusatzkosten, beispielsweise durch Stornos und Retouren, und hebeln Compliance-Politiken und Grundsätze aus. Das kann teuer werden!

Welche Techniken und Plattformen sind für Big Data und Information Governance unabdingbar?

Stelz: Eine Information Governance setzt im Information Management an. Die Information Management-Plattform sollte dabei universelle Unterstützung leisten, so wie sie beispielsweise der Data Quality Service Hub von Uniserv bietet. Die Bearbeitung der Daten nach dem Extract-Transform-Load-Prinzip (ETL) gibt den Anwendern die Kontrolle über die Daten und Inhalte aus heterogenen Quellen zurück: Die Plattform muss in der Lage sein, polystrukturierte Daten und Informationen unterschiedlicher Quellen zu extrahieren, zu transformieren und in unterschiedlichste Zielsysteme zu laden. Zudem muss die notwendige Datenqualität in den operativen oder analytischen Business-Applikationen sichergestellt sein. So sind Data Quality und Data Management eng miteinander verzahnt und erst so richtig effektiv.

Bange: So sehe ich das auch. Den Datenmanagement-Werkzeugen fällt eine besondere Bedeutung zu. Sie dienen als Integrationspunkt zwischen verschiedenen Systemen, die Daten speichern und auswerten, und bilden so häufig die Klammer um die verschiedenen Daten-Welten.

Martin: Eine Big-Data-Architektur lehnt sich an traditionelle Architekturen an. Die unterste Schicht ist die der Datenhaltung. Hier brauchen wir jetzt alternative, hoch-performante Technologien zur Datenhaltung, die die relationalen Technologien ergänzen.

Auf der Datenhaltungsschicht sitzt Information Management, das zunächst einmal die traditionellen Komponenten wie Integrationsplattform, Repository und Data Quality Management enthält, dann aber auch neue wie Quellenidentifikation mittels Suchmaschinen und Extraktionswerkzeuge, die auch ohne APIs Daten extrahieren können. Hier werden verstärkt In-Memory- und Parallelverarbeitung Einzug halten.

Schließlich folgt die Analytik-Schicht, wo jetzt Data Discovery eine große Rolle spielt. Wichtig ist auch neben Data und Text Mining die Textanalytik, die sich insbesondere mittels linguistischer Verfahren gut für die Analyse unstrukturierter Daten eignet. Weiterhin spielen in der Analytik jetzt auch Suchmaschinen eine bedeutende Rolle. Dazu kommen noch Anreicherungsverfahren wie Geokoding, um all die Lokalisierungsdaten aus dem mobilen Internet auch gewinnbringend in Analysen und Prozessen nutzen zu können.

Wie beeinflusst die Datenqualität das Big-Data-Management?

Stelz: Das Paradigma „der Prozess bestimmt die Datenqualität“ ändert sich auch bei Big Data nicht. Datenqualität ist auch bei Big Data von enormer Bedeutung. Vor allem dann, wenn – wie schon von mir angesprochen – Unternehmensdaten mit Informationen aus Big Data angereichert werden. Wenn also beispielsweise Kundendaten durch Daten aus den sozialen Medien ergänzt werden sollen, zum Beispiel bei den benutzerangepassten Suchergebnissen einer Google-Suche. Eine hohe Datenqualität muss bereits vor der Datenanalyse gewährleistet sein – am besten schon bei der Dateneingabe beziehungsweise Datenerhebung. Denn erst eine einheitliche, qualitativ hochwertige Datenbasis versetzt die Anwender in die Lage, Daten schnell zu analysieren und so beispielsweise rechtzeitig auf Markttendenzen zu reagieren. Die Grundaufgaben von Data Management in Bezug auf Big Data bleiben dabei die gleichen: Profiling, Cleansing sowie Anreichern und Abgleichen mit Referenzdaten. Aber auch hier steigt im Bereich Big Data die Bedeutung von Datenqualität: Das Schaffen des Single Point of Truth ist beim gegebenen Datenvolumen schwieriger geworden und auch die Anforderungen an die Performance der Datenqualitätslösungen sind stark angewachsen.

Martin: In der Vergangenheit hatten wir uns stets bemüht, den Single Point of Truth herzustellen und zu bewahren. Das wird nicht mehr so wie bisher, also deterministisch, im Big Data machbar sein, da eine Konsistenz über alle Datenquellen in der Regel nicht mehr erreichbar sein wird. Daher wird der Single Point of Truth eher mit wahrscheinlichkeitstheoretischen Ansätzen formuliert und definiert werden müssen. Mit diesen Überlegungen stehen wir aber noch ganz am Anfang.

Stelz: Um auch mit Big Data im Unternehmen den Single Point of Truth anzustreben, müssen neben der Performance auch die Service-Orientierung der Werkzeuge, die Services selbst und Plattformen stimmen. Denkbar ist hier zum Beispiel der Einsatz von hybriden Cloud-Lösungen, bei denen bestimmte Services in der Cloud zur Verfügung stehen und andere wiederum on demand abgerufen werden können.

Welche Bedeutung wird In-Memory für die Zukunft der Datenverarbeitung haben?

Bange: Verarbeitung und Speicherung im Hauptspeicher war schon immer ein Grundkonzept der Datenverarbeitung. Dank jeher exponentiell wachsender Kapazitäten sind wir nun in der Lage, auch ganze Datenbanken bis zu einer gewissen Größe im Hauptspeicher vorzuhalten.

Martin: Technisch gesehen bedeutet In-Memory mehr als nur eine Datenbanktechnologie, denn In-Memory kann als Infrastruktur in den Integrations-, Entwicklungs-, Prozess- und anderen Plattformen eingesetzt werden und hier noch viele Wege zur Innovation aufzeigen. Wir können Kosten einsparen, Time-to-Market steigern – es geht eben schneller – oder die Wettbewerbskraft erhöhen.

Stelz: Wir können beobachten, wie sich die Tools an Anforderungen des Marktes anpassen. Der Erfolg von Tool-Anbietern in diesem Bereich wird dadurch entschieden werden, ob deren Produkte In-Memory-fähig sind. An dieser Technologie wird keiner mehr vorbeikommen.

Bange: Durch die signifikant beschleunigten Anwendungen werden in einigen Bereichen auch ganz neue Möglichkeiten der Verarbeitung und Analyse von Daten geschaffen.

Martin: Ja, jetzt können wir Dinge realisieren, die bisher nicht machbar waren. Beispielsweise im Handel eine Produktprofitabilität pro Kunden berechnen und die in Echtzeit zu Empfehlungen in Kundeninteraktionen nutzen. Auch ich bin mir sicher: Auf In-Memory wird man nicht mehr verzichten wollen.

Was kommt nach Big Data? Wo wird Ihrer Meinung nach die Reise hingehen?

Martin: Big Data wird uns die nächsten Jahre als Thema begleiten. Wir werden dabei noch viele neue Technologien und Innovationen in den Unternehmen sehen. Mit Big Data gehen wir den nächsten Schritt in Richtung Informationsgesellschaft und Digitalisierung der Welt. Als parallele Herausforderung sehe ich den fairen Umgang mit persönlicher Information im Big Data, Datenschutz, Urheberschutz und alle verwandten Themen.

Bange: Während die Big-Data- Diskussion momentan noch sehr technisch geführt wird, stehen die neuen Anwendungsfälle und Möglichkeiten der Unternehmenssteuerung und -planung immer stärker im Fokus der Überlegung. Der Weg zu datengetriebenen Unternehmen erfolgt auf Basis einer Datenmanagement-Infrastruktur mit noch nie dagewesener Leistungsfähigkeit und auf mobilen Endgeräten, welche die Zusammenarbeit von Menschen in operativen und dispositiven Aufgaben integriert unterstützen.

Stelz: Zukünftige Technologien und die neuen Anforderungen an ein Big-Data-Management werden auf jeden Fall den Umgang mit Daten und damit auch die Art und Weise der Informationsnutzung in Unternehmen signifikant ändern. Wie Unternehmen diesen Wandel in der Datenwelt für sich nutzen können und wie die neuen Technologien zum Unternehmenserfolg beitragen können, ist übrigens auch Thema der diesjährigen Uniserv Innovative am 12. Juli in Frankfurt. Dort werden wir uns nicht nur mit anerkannten Experten über die zukünftigen Trends und Möglichkeiten austauschen, es werden auch anhand von Best-Practice-Beiträgen individuelle Markterfahrungen diskutiert. Alle Interessenten sind herzlich ins Frankfurter Radisson Blu zu diesem Uniserv-Infotag eingeladen.

(ID:34290920)