Mehr Agilität und Flexibilität, weniger Speicherplatzbedarf Datenvirtualisierung ist eine Ergänzung, aber kein Ersatz
Große Datenmengen aus mehreren Quellen werden mithilfe von Data Analytics zu geschäftsrelevanten Zusammenhängen. Üblicherweise werden die dafür benötigten Daten aus den verschiedenen Quellen in die Datenbank repliziert. Doch gerade wenn die Menge der Daten und die Anzahl der Quellen wachsen, kann es sinnvoll sein, eine virtuelle Datenebene zu schaffen.
Anbieter zum Thema

Die Daten sind da – ihre Erfassung und Speicherung sind technisch kein Problem. Der Wert dieser Daten steigt mit ihrer Aussagekraft: Zusammenhänge erkennen, weitere Datenquellen hinzuziehen, Entscheidungen mit Daten untermauern, Trends frühzeitig erkennen. Hinter Data Analytics steckt schon jetzt in den meisten Unternehmen mehr als ein wöchentlicher Managementreport.
Doch sowohl die Menge der Daten als auch die Anzahl der Quellen, die integriert werden sollen, wächst. Immer mehr Nutzer aus den Fachabteilungen sollen Zugriff auf brandaktuelle Daten haben und die für ihren Bereich notwendigen Schlüsse daraus ziehen. Mit fest definierten Abfragevorgaben und einem starren Datenmodell lassen sich diese Anforderungen kaum mehr umsetzen.
Datenvirtualisierung bringt Flexibilität
Um Daten aus verschiedenen Quellen miteinander in Zusammenhang zu bringen, werden diese normalerweise in einem Data Warehouse zusammengeführt. Bei dieser klassischen Datenintegration werden die Daten in eine Datenbank repliziert, um von einem Business-Intelligence-Tool nach Bedarf verarbeitet, sprich den Abfrage-Kriterien entsprechend geladen, verknüpft und visualisiert zu werden. Die Ergebnisse speichert das System ebenfalls in Tabellen wieder ab.
Bei der Datenvirtualisierung findet diese Datenintegration erst dann statt, wenn eine Abfrage vorliegt. Das bedeutet, die Daten aus den Quellsystemen werden nicht regelmäßig und systematisch in das eigene Data Warehouse überspielt. Das Datenvirtualisierungs-Tool lädt Daten nur für den Zeitpunkt, an dem sie für eine Analyse benötigt werden, hält sie aber darüber hinaus nicht vor. Es erstellt eine logische Abbildung der Daten mit Verweis auf die Quellen. Die meisten Datenvirtualisierungswerkzeuge bieten die Anbindung über Datenbankprotokolle, Web Services oder Messaging-Lösungen und ermöglichen so die Integration verschiedenster Datenformate und -strukturen.
Dieser Ansatz bietet Vorteile: Es ist deutlich einfacher, neue Quellen zu integrieren. Das bedeutet gleichzeitig, dass sich neue BI-Anforderungen schneller umsetzen lassen – im Kontext einer zunehmenden datenbasierten Ausrichtung kann das essentiell sein. Die Daten sind im Moment der Analyse aktuell, da keine Replikationsmechanismen für Latenzen sorgen. Außerdem – und das ist ein bedeutender Aspekt, wenn im ganzen Unternehmen Entscheidungen aufgrund von Daten getroffen werden sollen – vergrößert sich die Zahl derer, die mit den Analysewerkzeugen arbeiten. Fachabteilungen beispielsweise sind dann in der Lage, eigene Quellen einzubinden und übergreifende Analyse zu generieren, für die bisher deutlich mehr Data-Analytics-Know-how erforderlich gewesen wäre.
Auch technisch gesehen verspricht die Datenvirtualisierung Vorteile. Vor allem Kosteneinsparungen werden ins Feld geführt. Wenn weniger Daten repliziert werden müssen, sinkt der Speicherplatzbedarf. Die kürzere Implementierungszeit bei der Umsetzung neuer Analyseprozesse wirkt sich ebenfalls kostensparend aus. Darüber hinaus rechnen viele Anbieter von Datenvirtualisierungslösungen mit einer geringeren Systembelastung, da das Data Warehouse selbst nun weniger beansprucht wird. Hin und wieder wird die Datenvirtualisierung sogar als Alternative zu Data-Warehouse-Lösungen genannt.
Veränderte Ansprüche an verteilte Infrastrukturen
Die Praxis zeigt, dass sich die genannten Vorteile nicht immer hundertprozentig einstellen. Denn gerade die direkte Anbindung der Datenquellen macht die Gesamt-Performance einer Abfrage von ebenjenen abhängig. Mit wachsender Zahl der Anbindungen steigt die Abhängigkeit von verteilten, bisweilen auch externen IT-Systemen. Oft müssen Quellsysteme zunächst für die Ad-hoc-Abfrage meist größerer Datenmengen umgerüstet werden, gerade wenn sie bisher beispielsweise nur zu einem festen Zeitpunkt Daten bereitstellten. Jede einzelne Quelle muss zudem regelmäßig geprüft werden, um die Seriosität der Daten, Datensicherheit und Datenintegrität zu gewährleisten.
Ob sich die Systembelastung hinsichtlich des Netzwerk-Traffics tatsächlich signifikant senken lässt, entscheidet das konkrete Anwendungsszenario. Je nachdem, wie viele Quellen welche Menge an Daten liefern, wo diese Quellen IT-System-technisch verankert sind und schließlich wie viele Nutzer komplexe Analysen erstellen, desto höher oder niedriger fällt die Systembeanspruchung aus. Data Warehouses übernehmen jedoch nicht nur das Speichern und Vorhalten der Daten. Vielmehr finden hier bereits erste logische Zuordnungen, Filterungen, Konsolidierungen und nicht zuletzt die historisch sinnvolle Ablage der Analyse-Ergebnisse in entsprechendem Kontext statt.
Gerade, wenn sie klug aufgesetzt sind und auf Datenbanktechnologien beruhen, die auf analytische Business-Cases spezialisiert sind, können Data Warehouses mit verlässlicher Verfügbarkeit und Performance Analyse-Ergebnisse liefern. So hat sich hier die In-Memory-Technologie, wie sie beispielsweise der Datenbankhersteller Exasol aus Nürnberg anbietet, etabliert: Die Daten, die gerade oder demnächst verwendet werden – die sogenannten „heißen“ Daten –, werden im Hauptspeicher gecacht und stehen damit einer hoch performanten Verarbeitung zur Verfügung.
Anwender können darüber hinaus „virtuelle“ Schemas nutzen, um Daten verschiedenster externer Datenquellen zu analysieren, ohne diese zuvor in die Exasol-Datenbank replizieren zu müssen. Die Daten bleiben in den zugehörigen Datenhaltungssystemen. Eine redundante Datenhaltung und komplexe ETL-Prozesse werden vermieden, wobei der Zugriff auf die Daten durch die Anwender erhalten bleibt. Auf diese Weise lassen sich datenquellenübergreifende Analysen auf der Gesamtansicht aller betriebskritischen Daten durchführen. Zudem ermöglicht Exasol durch die flexible Unterstützung zahlreicher Datenquellen und Datenformate eine nahezu nahtlose Integration in diverse heterogene Infrastrukturen. Ein gemeinsames Framework für Datenimport und Datenvirtualisierung ermöglicht es Partnern und Nutzern, existierende Datenquellenadapter anzupassen oder bei Bedarf neue zu erstellen und über die Open-Source-Plattform GitHub mit anderen Nutzern zu teilen.
Ohne Datenstrategie führt Datenvirtualisierung in ein Durcheinander
Daten und deren geschäftsrelevante, echtzeitnahe Bereitstellung und Analyse sind längst entscheidende Wettbewerbsfaktoren. Mithilfe der Datenvirtualisierung werden Daten aus verschiedenen Quellen möglichst vielen Nutzern in Echtzeit zur Verfügung gestellt. Unternehmen sollten jedoch das Gesamtbild nicht aus den Augen verlieren. Gemeint ist die Notwendigkeit einer übergreifenden und an den Geschäftszielen ausgerichteten Datenstrategie. Diese definiert den Umgang mit Daten und deren Wert für die künftige Entwicklung des Unternehmens. Gleichzeitig ordnet sie die entsprechenden Prozesse zu, deckt Automatisierungspotenziale auf und definiert Zugangsrechte für verschiedene Nutzergruppen und Rollen.
Was zunächst schematisch und ausbremsend klingen mag, ist in der täglichen Unternehmenspraxis sehr sinnvoll. Gerade geschäftsrelevante Entscheidungen können selten auf der Basis von Ad-hoc-Analysen getroffen werden. Manche Datenabfragen greifen auf Systeme zu – wie beispielsweise Produktionssteuerungen, die für analytische Massenabfragen kaum ausgelegt sind – und verursachen damit unter Umständen Störungen im Ablauf. Und auch die Analyse der Daten selbst ist keineswegs trivial – Data Scientists beschäftigen sich ausführlich damit, welche Zusammenhänge zufällig und welche aussagekräftig sind. Soll heißen: Wenn es grundsätzlich sinnvoll ist, mehr Nutzern die Möglichkeit zu geben, echtzeitnahe Analysen zu erstellen, sollten diese Nutzer ein entsprechendes Know-how mitbringen.
Die Datenvirtualisierung kann ein umfassend strategisch aufgesetztes Datenkonzept samt Data Warehouse deshalb nicht vollständig ersetzen. Sehr wohl steht aber mit der Technologie eine sinnvolle Ergänzung zur Verfügung, die mehr Agilität und Flexibilität in den Bereich der Data Analytics bringt.
*Der Autor: Mathias Golombek, CTO bei Exasol
(ID:46166096)