Suchen

Baumstrukturen und Triples helfen bei der schnellen Datenrecherche Marklogic NoSQL trianguliert semi-unstrukturierte Datenbanken

| Autor / Redakteur: Walter Schadhauser / Rainer Graefen

Das stete Wachstum unstrukturierter Daten begeistert verständlicherweise die Speicherbranche. So lassen sich selbst bei sinkenden Produktpreisen Umsatzsteigerungen erzielen. Was man dann mit dem gespeicherten Datenmassenmonster anfängt, darüber dürfen sich andere den Kopf zerbrechen.

Firma zum Thema

(Grafik: Marklogic)

Unstrukturierte Daten durchsucht man per NoSQL-Datenbanken wie denen von MongoDB, CouchDB Redis, Riak, Neo4J, InfoGrid oder Infinite Graph. Die Suche kann auf Hashwerten basieren, was aber das Ersetzen von Inhalten schwer macht und auch bei Abfragen schwerfällig ist. Die bessere Alternative ist eine spaltenorientierte NoSQL-Datenbank, wie sie Facebook mit Cassandra und Hbase bei riesigen Datenmengen einsetzt.

Eine dritte Variante führt die Suche auf dem höherwertigen Level von Dokumenten durch, wie es vor vielen Jahren Lotus mit Notes etablierte und schon damals dafür viel Lob erntete. Hashwerte und teilstrukturierte Dokumente, bzw. Versionen davon, werden heute allerdings in einem kompakten Datenformat auf Basis von JSON-Strukturen (Javascript Object Notation) gespeichert.

Bildergalerie

Dokumentenzentrisches Modell

Eine vierte Möglichkeit, die sich für den kommerziellen Einsatz eignet, sind Datenbanken mit Baumstrukturen, die sich gut parallelisieren lassen, denen derzeit jedoch noch eine Art allseits akzeptierte Abfragesprache wie SQL fehlt. Das amerikanische Unternehmen Marklogic, ein Verfechter des dokumentenzentrierten Modells, verwendet zum Beispiel die vom W3c empfohlene rekursive Abfragesprache Sparql.

Gegründet wurde Marklogic 2001 im Silicon Valley. Es gibt Büros in New York, London, Frankfurt, Utrecht und Tokyo. Die Startup-Phase ist inzwischen beendet und das Unternehmen hat das wohl aufregendste Großereignis auf diesem Globus schon hinter sich. Nur zehn Jahre nach seiner Gründung hat Marklogic gemeinsam mit der BBC einen der schwersten öffentlichen Jobs gemeistert: Die publizistische Aufbereitung der Olympischen Sommerspiele 2012 in London.

RDF ganz einfach: Subjekt, Prädikat und Objekt

Mit diesem Nachweis, dass man ein dynamisches Content-Publishing für zig Millionen Sportbegeisterte in Echtzeit bereitstellen kann, wurde auch der Beweis erbracht, dass das Marklogic-NoSQL-Datenbankprodukt Enterprise-tauglich ist.

Die dazu erforderliche Technik beschreibt Gary Bloom, CEO bei Marklogic, so: „Es gibt zwei wichtige Schlüsselfunktionen, den Triple-Store und den NoSQL-Inhaltespeicher. Der Triple Store ist wichtig, um automatisch Inhalte zusammenzufassen, zu publizieren und auch wieder in andere Zusammenhänge zu bringen.“

(ID:42666109)