Analyse unstrukturierter Daten Big Data und die graphenbasierte Datenmodellierung gehören zusammen

Autor / Redakteur: Filipe Martins und Anna Kobylinska* / Nico Litzel

Die praktischen Anforderungen der multidimensionalen Analyse massiver Bestände unstrukturierter Daten rufen ganz neue Ansätze auf den Plan. Big Data und die graphenbasierte Datenmodellierung gehören ganz einfach zusammen.

Die Graphenanalyse, auch Netzwerkanalyse genannt, schafft eine mathematische Abbildung eines Netzwerks und damit die Möglichkeit, Vorgänge zu simulieren und Vorhersagen zu treffen.
Die Graphenanalyse, auch Netzwerkanalyse genannt, schafft eine mathematische Abbildung eines Netzwerks und damit die Möglichkeit, Vorgänge zu simulieren und Vorhersagen zu treffen.
(Bild: © Astibuag – stock.adobe.com)

Versteckte Zusammenhänge zwischen mehreren dynamischen Einflussgrößen sprengen die Fähigkeiten konventioneller Datenmodellierung. Um die reichhaltigen Beziehungen in netzartigen Systemen zu verstehen und sie abzubilden, greifen Datenwissenschaftler auf die sogenannten Graphenalgorithmen (Diagrammalgorithmen, englisch graph algorithms) zurück.

Für die multidimensionale Datenmodellierung kommen Diagramme wie gerufen: Sie schaffen eine mathematische Abbildung eines Netzwerks und damit die Möglichkeit, Vorgänge zu simulieren und Vorhersagen für das Verhalten des Systems zu treffen. Die Graphenanalyse ist im Übrigen auch unter der Bezeichnung „Netzwerkanalyse“ bekannt.

Graphen, Multi- und Hypergraphen

Ein Graph ist im Grunde genommen eine Sammlung von Punkten, den sogenannten Knoten (oder Eckpunkten), und Linien, die diese Punkte verbinden, den sogenannten Kanten. Die Knoten repräsentieren hierbei die einwirkenden Einflussfaktoren des Modells, während die Kanten die vielseitigen Beziehungen zwischen diesen Größen wiedergeben sollen.

Graphen können dementsprechend verzwickte Strukturen bilden. Sie können zum Beispiel eigenständige oder auch zusammengefasste Mehrfachkanten beinhalten. Die einzelnen Kanten können eine Gewichtung besitzen und gerichtet oder ungerichtet ausgelegt sein. Sie können etwa Selbstschleifen bilden und etwa Hyperkanten (indem eine Kante mehrere Knoten miteinander verbindet) oder Multigraphen formen (wenn zwei Knoten durch mehrere Kanten in Kontakt miteinander treten) sowie andere ähnlich interessante Eigenschaften aufweisen.

Graphen eignen sich daher hervorragend zur Erfassung und Visualisierung komplexer, realitätsnaher Zusammenhänge in netzwerkartigen Systemen. Die Nutzungsszenarien sind vielseitig:

  • Analyse von Finanztransaktionen zur Aufdeckung von Betrug wie der Geldwäsche, Versicherungsbetrug oder betrügerischer Aktivitäten in der Telekommunikation,
  • Influencer-Analyse in sozialen Netzwerken,
  • Netz- und QoS-Analyse in Netzwerken, zum Beispiel zur Ermittlung von Schwachstellen in Stromnetzen, Wassernetzen und Transportnetzen sowie Verhinderung von Cyberkriminalitätsangriffen auf Computernetzwerke,
  • Routenplanung für Fluggesellschaften,
  • Optimierung von Lieferketten in der Logistik,
  • Forschung in der Bioinformatik, Medizin und andere.

Wer sich in das Gefilde der Graphenanalyse begibt, betritt in gewisser Weise unerforschtes Neuland. Denn der Vormarsch der Künstlichen Intelligenz schreibt die Spielregeln der Graphenmodellierung gerade um. Der Markt für Graphen-Analytics nimmt dementsprechend erst an Fahrt auf.

Zweistelliges Wachstum: mit Graphenalgorithmen Volldampf voraus

In seinem neuesten Analysebericht vom Dezember 2020 sagt das Forschungsinstitut Meticulous Market Research dem globalen Markt für Graph-Analytics bis zum Jahre 2027 eine zusammengesetzte durchschnittliche Wachstumsrate (CAGR) von satten 19,1 Prozent pro Jahr voraus. Der Umsatz soll demnach bis zum Ende des Prognosezeitraums im Jahre 2027 ein Gesamtvolumen in Höhe von 2,03 Milliarden US-Dollar erreichen.

Die zunehmende Verbreitung von Cloud Computing und IoT-Technologien fordere von den Unternehmen deutlich mehr Agilität. Daraus ergäben sich neue Anforderungen an die Big-Data-Analytik. Graph Analytics habe sich als eines der wichtigsten Tools zur Handhabung großer Graphendatenbanken herauskristallisiert, argumentieren die Analysten weiter. Aufgrund des zunehmenden Bedarfs an der Analyse latenzsensibler Abfragen und der steigenden Nachfrage nach Cloud-basierten Diensten erwarten die Marktforscher im Prognosezeitraum ein anhaltendes, robustes Wachstum der Nachfrage.

Die höchste Wachstumsrate soll demnach das Dienstleistungssegment verzeichnen. Mit der schnellen Einführung von Graph-Analytics in verschiedenen Sektoren steige der Bedarf an Dienstleistungen wie Beratung, Installation & Schulung sowie Support & Wartung stetig an. Zu den Wachstumstreibern zähle insbesondere die schnelle Verbreitung von IoT- und Blockchain-Technologien in verschiedenen Geschäftsbereichen.

Graphenalgorithmen unterstützen die Modellierung von Systemen wie Computernetzwerken oder dem Stromnetz. In der Abbildung: interaktive Echtzeitkarte der Cyberbedrohungen des Sicherheitsspezialisten Kaspersky Lab.
Graphenalgorithmen unterstützen die Modellierung von Systemen wie Computernetzwerken oder dem Stromnetz. In der Abbildung: interaktive Echtzeitkarte der Cyberbedrohungen des Sicherheitsspezialisten Kaspersky Lab.
(Bild: Kaspersky Lab)

Als die größten Hindernisse auf dem Weg zu mehr Adoption nennen die Analysten vor allem mangelnde Standardisierung, die umständliche Programmierbarkeit, falsche Vorstellungen über Graph-Analytics in den Chefetagen und mangelndes Wissen über existierende Lösungen.

Zu den erfolgreichsten Anbietern im Markt für Graphen-Analytics zählen derzeit die nordamerikanischen Unternehmen Neo4j, TigerGraph, Teradata Corporation, TIBCO Software, Oracle, Microsoft, Tom Sawyer Software, IBM und die Lynx Analytics aus Singapur.

Big-Data-Analyse mit Graphenalgorithmen

Das Feld der Graphenanalysealgorithmen dominieren derzeit vier Ansätze:

  • Pfadfindung (Engl. graph traversal): Mit dieser Art der Graphenanalyse lässt sich die kürzeste Entfernung zwischen zwei Knoten ermitteln. Anwendungsfälle beinhalten die Routenoptimierung in Logistik, Liefer- und Distributionsketten sowie die Verkehrsflussoptimierung in Smart Cities.
  • Konnektivitätsanalyse: Diese Art der Diagrammanalyse kann etwa Schwachstellen in Netzwerken aufdecken, also beispielsweise potenzielle Probleme in dem Aufbau eines Stromnetzes. Diese Art der Analyse ermöglicht auch den Vergleich der Konnektivität zwischen verschiedenen Netzwerken.
  • Analyse der Zugehörigkeit: Diese Art der Analyse macht sich Merkmale des Graphen wie Distanzen und Dichten von Verbindungen zu Nutze, um zusammenhängende Entitäten zu identifizieren. Mit diesen Algorithmen lassen sich beispielsweise Gruppen von Personen in einem sozialen Netzwerk ausfindig machen, die besonders stark miteinander interagieren (englisch community detection algorithms). Der Ansatz kann zudem etwa die Bestandsfähigkeit der betreffenden Beziehungen erfassen und nicht zuletzt auch das Wachstum und die Evolution des Netzwerks vorhersagen (network evolution).
  • Zentralitätsanalyse: Dieser Ansatz zielt darauf ab, Entitäten mit der höchsten Relevanz im ganzen Netzwerk zu identifizieren. Mit dieser Art von Graphen-Algorithmen lassen sich beispielsweise Influencer für Marketingkampagnen oder die Webseiten mit der höchsten Leseraffinität aufspüren. In diese Kategorie der Graphenalgorithmen fällt beispielsweise Googles PageRank.

Erfassung von Wissen und Interaktionen

Die erfolgreichsten sozialen Netze machen sich nicht nur Graphalgorithmen zunutze, sondern setzen auf die graphenbasierte Datenmodellierung im großen Maßstab. Das Social Graph bildet das Wissensmodell für das Netz der kontextualen Beziehungen, so zum Beispiel bei Facebook.

Ein Benutzer postet ein Update in seiner Facebook-Timeline, ein anderer verfasst dazu ein Kommentar, ein wiederum anderer klickt auf „Gefällt mir“, und noch jemand anderes erkennt seinen Freund in dem bereits automatisch geo-getaggten Foto und taggt es dann auch noch mit dessen Namen. Diese Aktivitäten reflektieren Zusammenhänge zwischen Menschen, Medien und geografischen Standorten zu jedem gegebenen Zeitpunkt. Durch die Analyse dieser multidimensional verzwickten Zusammenhänge im Laufe der Zeit kann das soziale Netzwerk den betreffenden Inhalten ihre Bedeutung in Relation zu den betroffenen Menschen und andere relevante Informationen entnehmen, um daraus neue Werte zu schöpfen. So wird eine Wissensbasis über Zielgruppen und Marktnischen entwickelt, welche Facebook seiner zahlenden Zielgruppe – den werbetreibenden Marketern – verkaufen kann. Diese Wissensbasis ermöglicht eine neuartige Suchfunktion – die so genannte Graphensuche (englisch graph search) und damit treffsicheres Targeting.

Mit der Graphensuche können Marketers mit intelligenten, kontextabhängigen Suchanfragen fein granulierte Informationen über ihre avisierte Zielgruppe aus der sozialen Plattform extrahieren, ohne jedoch selbst in den Besitz der Daten zu kommen – das Geschäftsmodell der sozialen Netze setzt zwingend Letzteres voraus.

Die Graphensuche kommt unter anderem für die Marktforschung wie gerufen: Analyse-Software kann die Präferenzen der anvisierten Zielgruppe erforschen und demografische Kriterien mit persönlichen Vorlieben im Kontext sozialer Interaktionen untersuchen. Mit Hilfe des Open Graph Protokolls (OGP) können Unternehmen Facebooks Social-Graph über die bereitgestellten APIs an eigene Anwendungen und mobile Apps anbinden. Das Open Graph Protokoll ermöglicht unter anderem die Erfassung von Benutzeraktivitäten, die außerhalb von Facebook stattfinden, im sozialen Graphen der Facebook-Plattform. OGP verwandelt externe Webseiten in Objekte, damit die Nutzer der Plattform Inhalte aus externen Quellen innerhalb des Netzwerks teilen können. So kann der Graph organisch wachsen.

Ein ähnliches Konzept liegt den anderen sozialen Netzwerken wie LinkedIn und Twitter zugrunde; das Geschäftsmodell unterscheidet sich nur in Nuancen.

Angesichts der anhaltenden Popularität sozialer Netze und deren vielseitiger, ausgereiften APIs stellt die Anbindung von Webseiten und externen Anwendungen für deren Publisher eine verlockende Möglichkeit dar, sich an dem Ökosystem zu beteiligen. Richtig konzipiert, kann eine durchdachte Integration sozialer Netze den Unternehmen zum eigenen Markterfolg verhelfen – doch am Ende ist der Plattformanbieter des betreffenden Graphen der größte Gewinner.

Fazit

Dynamische Datenmodellierung, wirtschaftliche Vorhersagen, Maschinelles Lernen: Von der Suche nach Netzwerkverwundbarkeiten und -engpässen über die Erkennung versteckter Zusammenhänge zwischen den Aktivitäten der Nutzer sozialer Netze bis hin zum Suchen nach Lösungen von Optimierungsproblemen: Graph-algorithmen haben es in sich.

Die Ära fein granulierter „sozialer“ Marktforschung auf der Basis von Big Data aus sozialen Netzen ist in vollem Schwung. Graphendatenbanken bilden ihr Rückgrat, Graphenalgorithmen deren Intelligenz. Die nächste Evolutionsstufe ist der Einbezug von IoT zur reibungslosen Erfassung physischer Interaktionen.

*Die Autoren: Das Autorenduo Anna Kobylinska und Filipe Pereira Martins arbeitet für McKinley Denali Inc. (USA).

(ID:47133282)