Aus Mustern entsteht Wissen Big Data mit Business Intelligence nutzbar machen

Autor / Redakteur: Susanne Franke / Florian Karlstetter

Big Data, bestehend aus strukturierten und unstrukturierten Daten mit komplexen Beziehungen untereinander, birgt enormes Wissenspotenzial. Um es zu nutzen, müssen Unternehmen Muster darin erkennen können – mithilfe von Business Intelligence-Technologie unter anderem für Textanalytik oder auch für Social Media Monitoring.

Firma zum Thema

Ansatz der Business Intelligence Group, Daten aus verschiedenen Social Media-Quellen zu monitoren und zu analysieren.
Ansatz der Business Intelligence Group, Daten aus verschiedenen Social Media-Quellen zu monitoren und zu analysieren.
( Archiv: Vogel Business Media )

Jeden Tag erzeugen die Menschen weltweit 2,5 Trillionen Bytes an Daten, hat IBM herausgefunden. Das bedeutet, dass 90 Prozent der heutigen Daten allein in den letzten zwei Jahren entstanden sind. IDC-Statistiken zufolge erhöht sich im nächsten Jahr die Datenmenge um das 44-fache auf 35,2 Zettabyte. Natürlich geht es dabei um Daten, die in den Unternehmen erzeugt werden, aber auch um solche, die etwa von einer Vielfalt von Sensoren gesammelt werden (Smart Metering, Klimadaten etc.), und vor allem die aus Quellen im Web stammen. Das sind Portale, Beiträge aus sozialen Medien, digitale Online-Bilder und Videos, Transaktionsinformationen aus Online-Einkäufen, GPS-Signale von Handys und vieles mehr.

Für diese Datenflut hat sich schon seit längerem der Begriff „Big Data“ etabliert. Die Herausforderung im Umgang mit dieser ernormen Datenflut besteht nicht allein im Storage-Management der Daten, sondern vor allem in deren Analyse, um das hohe Potenzial zu nutzen, dass in den aussagekräftigen, Informationen schlummert. Der bekannte Journalist David McCandless geht in seinem Buch „Data is Beautiful“ sogar so weit zu behaupten: „Daten sind das neue Öl.“ Dieses Öl zu fördern, ist eine komplexe Aufgabe, denn Big Data bezeichnet nicht nur ein riesiges Datenvolumen, sondern auch einen Mix aus strukturierten und unstrukturierten Daten mit komplexen Beziehungen untereinander, oder auch solche, die lediglich einen Echtzeitwert besitzen.

Die Analyse von strukturierten Unternehmensdaten (in der Regel rund 20 Prozent aller Daten) ist heute in weiten Teilen Alltag und ohne Zweifel sehr wichtig, meint der Gartner-Analyst Stephen Prentice. Daneben aber liegen meist jahrelang gespeicherte, unstrukturierte Daten (rund 80 Prozent aller Unternehmensdaten), deren Potenzial unerkannt ist, weil sie noch nie analysiert wurden, so der Experte weiter. Beispielsweise könnte eine Versicherung durch die Analyse ihrer Petabytes an Informationen zu Schadensforderungen (Texte, Videos und Bilder) Muster finden, die bei der Bearbeitung künftiger Fälle hilfreich sind. Prentice empfiehlt Unternehmen, diesen Schatz zu heben und mit der Auswertung der Daten im eigenen Unternehmen anzufangen.

Zusätzlich erschließt sich die neue Welt mit wertvollen Daten aus sozialen Netzen durch die Möglichkeit, sich mit Kunden, Lieferanten, Partnern und anderen zu verbinden. Hinzu kommen auch die Daten, die mobile Geräte (Smartphones, Tablets) über deren Nutzer, ihre Kontext und Standort sowie die Interessen preisgeben. Dieses Gartner zufolge „Context-aware Computing“ birgt gute Chancen, um genauere Profile über die eigenen Kunden zu erstellen. Diese „neuen“ Informationen können beispielsweise Händlern zum besseren Verständnis ihrer Kunden führen oder auch dem öffentlichen Sektor durch mehr Verkehrsflussinformationen, Lokationsdaten von Autos bei der Verkehrsplanung helfen.

weiter mit: Vorausschauende Analysen

Vorausschauende Analysen

„Das Potenzial in all diesen Daten liegt in den Mustern, die Unternehmen durch die Analyse erkennen können“, erläutert der Gartner-Marktforscher. „Dabei ist es von kritischer Bedeutung, nicht nur die Datenmenge im Auge zu haben, sondern auch die anderen Dimensionen wie Geschwindigkeit, mit der die Daten ankommen, die Vielfalt der Datentypen wie deren Komplexität“, warnt Prentice. Konnten Unternehmen mit „traditioneller“ Business Intelligence die Fragen, was passiert ist und warum, beantworten, so lasse sich nun mit der von Gartner benannten Pattern-based Strategy eine Antwort auf die Fragen finden, was passiert gerade, was wird wahrscheinlich passieren und welche Ereignisse beeinflussen die Zukunft. Vorausschauende Analysen, die die Zukunft antizipieren und Simulationen zum Auffinden von Mustern sind Funktionalitäten, die den Unternehmen zu gezielteren Entscheidungen verhelfen werden.

Prentice definiert eine Pattern-based Strategy als eine Reihe von Prozessen, mit deren Hilfe Anwender Informationen aus den Daten existierender und künftiger Quellen ziehen können, in einem nächsten Schritt die Auswirkungen ihrer Erkenntnisse in die Geschäftsprozesse einfließen lassen und schließlich im letzten und wichtigsten Schritt die Organisation danach ausrichten können. Eine solche Strategie schließt Technologien und Disziplinen wie bereits genannte Business Intelligence-Systeme, Analytics, Data Discovery, Business Process und Performance Management, Complex Event Management und Informationsverwaltung mit ein. Doch im Unterschied zu früher sollen diese Bereiche nicht mehr separat als Silos betrachtet werden sondern als sich bedingende Einheit, so der Gartner-Mann.

„Die technischen Voraussetzungen, um Big Data in Wissen zu verwandeln, sind vorhanden, wenn auch in einigen Details noch verbesserungswürdig“, erklärt Dr. Wolfgang Martin vom Wolfgang Martin Team. „Big Data treibt den Einsatz innovativer Datenbank-Technologien, um die PetaBytes, sogar Exabytes von Daten in Analysen auswerten zu können“, stellt der Analyst fest. Über spaltenorientierte Speicherung, In-Memory-Technik und parallelisierte Verarbeitung sind die analytischen Datenbanken in der Lage, mit der schieren Datenflut fertig zu werden.

Neue Ansätze und Technologien

Den Mix aus unüberschaubaren und fragmentierten Daten aus den externen Quellen zu identifizieren, zu extrahieren und zu analysieren, das ist die wahre Herausforderung. „Hier sind neue Ansätze und Technologien gefragt, denn traditionelle IT-Werkzeuge zur Datenextraktion und Integration helfen nicht wirklich weiter“, so Dr. Martin.

So hat sich eine neue Klasse von Analysewerkzeugen herausgebildet, die verschiedene Verfahren kombiniert und Data Mining erweitert für den Umgang mit unstrukturierten Daten. In der Textanalytik sind mathematisch-statistische Ansätze um linguistische Verfahren ergänzt worden, erläutert der Fachmann, sodass die Tools in der Lage sind, die Semantik der Sätze zu analysieren, Tonalitäten zu erkennen und so aus geschriebenem Text die gewünschten Erkenntnisse abzuleiten. Hinzu kommen semantische Suchmaschinen, die erst feststellen, welche Texte überhaupt in Frage kommen, und schließlich noch eine neue Komponente, statistische Lernverfahren, um nach Vorlage der Bewertung von einigen Texten durch Experten dies Verfahren selbst zu lernen und auf neue Texte anzuwenden.

Bei der Suche nach Mustern in Big Data lässt sich zudem anders als für den herkömmlichen Analyseprozess im Vorfeld keine konkrete Fragestellung festlegen. Diese neue Kategorie der Analysewerkzeuge löst das Problem, indem die Mining-Verfahren das Aufstellen von Hypothesen zulassen. Dr. Martin erläutert dies am Beispiel der Krebsforschung.

Es wurden erfolgreich Projekte zur Erforschung der Wirksamkeit von Medikamenten, zur Unterscheidung von Respondern und Non-Respondern und zur Klassifikation klinischer Patientendaten durchgeführt. Der Data Mining-Ansatz hilft hier der medizinischen Forschung bei der Hypothesenfindung, in dem man durch die SOM-Methodik klinische und genetische Daten kombiniert untersuchen und klassifizieren kann.

Des weiteren stellt die Vielfalt und Menge der Datenquellen ein Problem dar, zumal nicht alle eine dokumentierte Schnittstelle beinhalten. Neue Ansätze für den Zugriff und die Integration der Quellen können mit dieser Schwierigkeit umgehen. Dr. Martin verweist auf ETL-Tools (Extract, transform, load), die entsprechende Funktionen besitzen, wie etwa die Web Extraktions-Tools von SnapLogic mit ihrer REST-basierten Architektur, zertifizierten Konnektoren (Snaps) zu den unterschiedlichsten Anwendungen und einer Pipeline-Ausführungs-Engine.

Erwähnenswert in diesem Bereich ist auch Kapow Software, denn der Extraction Browser kann Daten aus fast jeder Quelle selbst dann extrahieren, wenn kein API vorhanden ist. Möglich machen das die Miniroboter, die direkt über die Web-Schnittstelle einer Anwendung (über JavaScript oder HTML), die anwendungslogische Ebene (über API, SOAP/REST/XML) oder die Datenbankebene (über SQL) auf Daten zugreifen. Hierzu ahmen die Kapow Robots eine Benutzerinteraktion Schritt für Schritt nach und automatisieren den Prozess für die Extraktion der relevanten Daten mit dem erforderlichen Kontext aus Eingabewerten und Auswahloptionen.

weiter mit: Social Media Monitoring

Social Media Monitoring

Schließlich ist noch eine weitere neue Anwendungsklasse entstanden: das Social Media Monitoring. Hier geht es darum, zu verfolgen, was, wo, wann und wie über ein Unternehmen, eine Person oder ein Produkt im Web „gesprochen“ wird. Dazu muss ein Tool die relevanten Quellen identifizieren und extrahieren, um diese dann mithilfe von Textanalytik auszuwerten. Über Stimmungsanalysen (Sentiment Analysis) lässt sich auch die Tonalität aller Beiträge bestimmen. Danach kann der Auftraggeber sofort reagieren und bei Bedarf eine Kommunikation mit Communities im Web aufbauen.

Es gibt in Deutschland bereits Vorreiter in dieser Richtung, so der Experte. So setzt etwa der Otto Versand auf eine SaaS-Lösung der Business Intelligence Group, um zu erfahren, was in den Blogs und sozialen Netzen über die Firma geschrieben wird. Der Service verfolgt dazu die relevanten Blogs und sozialen Netze und findet über eine Textanalyse die negativen Passagen nach den Vorgaben des Kunden. In einem nächsten Schritt erhält das Callcenter des Unternehmens Feedback und kann sofort reagieren.

Social Media Monitoring wird vor allem als Dienstleistung angeboten. Auch Salesforce.com offeriert über die Akquisition von Radian 6 eine solchen Service, und SAP, SAS und IBM haben ebenfalls entsprechende Software in ihrem Portfolio.

Unternehmen sind allerdings noch sehr vorsichtig, wenn es um Social Media Monitoring geht. „Vielen fehlt es noch an Phantasie, wie die Erkenntnisse aus den Analysen in konkretes Geschäft umzusetzen sind“, bedauert Dr. Martin. „Denn entsprechende Strategien lassen sich heutzutage noch nicht quantifizieren.“ Doch in erster Linie muss die Rechtslage geklärt sein, wenn Unternehmen ihre eigenen Kundendaten beispielsweise mit entsprechenden Daten aus den Profilen in den Social Media miteinander verknüpfen, so der Fachmann. Das betrifft erstens die Frage, ob man überhaupt Daten einer Webseite auslesen darf und zweitens die Frage des Datenschutzes. Hier helfen Opt-in-Verfahren , das heißt, der Kunde muss der Nutzung seiner Daten zustimmen.

SAS wiederum ist gerade dabei, Social Media Analytics bei seinen Bestandskunden in Deutschland in Form von Pilotprojekten einzuführen. Datenschutz ist für diesen Hersteller kein Problem: „Unsere Ondemand-Lösung speichert keine persönlich identifizierenden Merkmale“, erklärt Dr. Karsten Winkler, Business Expert Customer Intelligence. „Wir surfen im sozialen Web und sehen das, was jeder Besucher der Site auch sehen kann. Datenabgleich oder Geolocation ist kein Thema in den Social Media Analytics von SAS.“ Schließlich wollen Leute, so der SAS-Fachmann weiter, die einen Blog schreiben, diesen auch öffentlich machen – und nur mit diesen Daten arbeitet auch die Software.

(ID:2052561)