Interview zum Thema Big Data

„Die Bearbeitung gigantischer Datenmengen ist große Herausforderung und Chance zugleich“

Seite: 3/5

Firmen zum Thema

Ist der Nutzen von Information Governance messbar?

Martin: Er lässt sich am besten indirekt über die Prozesskosten und -risiken, die entstehen, wenn Prozesse diese Daten verwenden, bewerten. Falsche, unvollständige und dubiose Daten schaffen monetär messbare Prozesszusatzkosten, beispielsweise durch Stornos und Retouren, und hebeln Compliance-Politiken und Grundsätze aus. Das kann teuer werden!

Welche Techniken und Plattformen sind für Big Data und Information Governance unabdingbar?

Stelz: Eine Information Governance setzt im Information Management an. Die Information Management-Plattform sollte dabei universelle Unterstützung leisten, so wie sie beispielsweise der Data Quality Service Hub von Uniserv bietet. Die Bearbeitung der Daten nach dem Extract-Transform-Load-Prinzip (ETL) gibt den Anwendern die Kontrolle über die Daten und Inhalte aus heterogenen Quellen zurück: Die Plattform muss in der Lage sein, polystrukturierte Daten und Informationen unterschiedlicher Quellen zu extrahieren, zu transformieren und in unterschiedlichste Zielsysteme zu laden. Zudem muss die notwendige Datenqualität in den operativen oder analytischen Business-Applikationen sichergestellt sein. So sind Data Quality und Data Management eng miteinander verzahnt und erst so richtig effektiv.

Bange: So sehe ich das auch. Den Datenmanagement-Werkzeugen fällt eine besondere Bedeutung zu. Sie dienen als Integrationspunkt zwischen verschiedenen Systemen, die Daten speichern und auswerten, und bilden so häufig die Klammer um die verschiedenen Daten-Welten.

Martin: Eine Big-Data-Architektur lehnt sich an traditionelle Architekturen an. Die unterste Schicht ist die der Datenhaltung. Hier brauchen wir jetzt alternative, hoch-performante Technologien zur Datenhaltung, die die relationalen Technologien ergänzen.

Auf der Datenhaltungsschicht sitzt Information Management, das zunächst einmal die traditionellen Komponenten wie Integrationsplattform, Repository und Data Quality Management enthält, dann aber auch neue wie Quellenidentifikation mittels Suchmaschinen und Extraktionswerkzeuge, die auch ohne APIs Daten extrahieren können. Hier werden verstärkt In-Memory- und Parallelverarbeitung Einzug halten.

Schließlich folgt die Analytik-Schicht, wo jetzt Data Discovery eine große Rolle spielt. Wichtig ist auch neben Data und Text Mining die Textanalytik, die sich insbesondere mittels linguistischer Verfahren gut für die Analyse unstrukturierter Daten eignet. Weiterhin spielen in der Analytik jetzt auch Suchmaschinen eine bedeutende Rolle. Dazu kommen noch Anreicherungsverfahren wie Geokoding, um all die Lokalisierungsdaten aus dem mobilen Internet auch gewinnbringend in Analysen und Prozessen nutzen zu können.

(ID:34290920)