Baumstrukturen und Triples helfen bei der schnellen Datenrecherche

Marklogic NoSQL trianguliert semi-unstrukturierte Datenbanken

| Autor / Redakteur: Walter Schadhauser / Rainer Graefen

(Grafik: Marklogic)

Das stete Wachstum unstrukturierter Daten begeistert verständlicherweise die Speicherbranche. So lassen sich selbst bei sinkenden Produktpreisen Umsatzsteigerungen erzielen. Was man dann mit dem gespeicherten Datenmassenmonster anfängt, darüber dürfen sich andere den Kopf zerbrechen.

Unstrukturierte Daten durchsucht man per NoSQL-Datenbanken wie denen von MongoDB, CouchDB Redis, Riak, Neo4J, InfoGrid oder Infinite Graph. Die Suche kann auf Hashwerten basieren, was aber das Ersetzen von Inhalten schwer macht und auch bei Abfragen schwerfällig ist. Die bessere Alternative ist eine spaltenorientierte NoSQL-Datenbank, wie sie Facebook mit Cassandra und Hbase bei riesigen Datenmengen einsetzt.

Eine dritte Variante führt die Suche auf dem höherwertigen Level von Dokumenten durch, wie es vor vielen Jahren Lotus mit Notes etablierte und schon damals dafür viel Lob erntete. Hashwerte und teilstrukturierte Dokumente, bzw. Versionen davon, werden heute allerdings in einem kompakten Datenformat auf Basis von JSON-Strukturen (Javascript Object Notation) gespeichert.

Dokumentenzentrisches Modell

Eine vierte Möglichkeit, die sich für den kommerziellen Einsatz eignet, sind Datenbanken mit Baumstrukturen, die sich gut parallelisieren lassen, denen derzeit jedoch noch eine Art allseits akzeptierte Abfragesprache wie SQL fehlt. Das amerikanische Unternehmen Marklogic, ein Verfechter des dokumentenzentrierten Modells, verwendet zum Beispiel die vom W3c empfohlene rekursive Abfragesprache Sparql.

Gegründet wurde Marklogic 2001 im Silicon Valley. Es gibt Büros in New York, London, Frankfurt, Utrecht und Tokyo. Die Startup-Phase ist inzwischen beendet und das Unternehmen hat das wohl aufregendste Großereignis auf diesem Globus schon hinter sich. Nur zehn Jahre nach seiner Gründung hat Marklogic gemeinsam mit der BBC einen der schwersten öffentlichen Jobs gemeistert: Die publizistische Aufbereitung der Olympischen Sommerspiele 2012 in London.

RDF ganz einfach: Subjekt, Prädikat und Objekt

Mit diesem Nachweis, dass man ein dynamisches Content-Publishing für zig Millionen Sportbegeisterte in Echtzeit bereitstellen kann, wurde auch der Beweis erbracht, dass das Marklogic-NoSQL-Datenbankprodukt Enterprise-tauglich ist.

Die dazu erforderliche Technik beschreibt Gary Bloom, CEO bei Marklogic, so: „Es gibt zwei wichtige Schlüsselfunktionen, den Triple-Store und den NoSQL-Inhaltespeicher. Der Triple Store ist wichtig, um automatisch Inhalte zusammenzufassen, zu publizieren und auch wieder in andere Zusammenhänge zu bringen.“

Inhalt des Artikels:

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 42666109 / Big Data)