Die Stecknadel im Heuhaufen wird durch das Datenwachstum immer kleiner

Optimales Data Warehousing mit massivparalleler Technologie

27.06.2011 | Autor / Redakteur: Hermann Woestefeld, Director Architecture Consulting EMEA bei Teradata / Rainer Graefen

Für die Echtzeitrecherche sind Aktenschränke nicht gedacht. (Quelle: Bisley)

Werden Daten für die Entscheidungsunterstützung benötigt, müssen sie zeitnah, umfassend und verlässlich verfügbar sein. Bei wachsenden Datenmengen lässt sich diese Anforderung nur noch von einem spezialisierten Datawarehouse erfüllen.

Bei wachsenden Datenmengen konkurrieren Anwender mit ihren komplexen Abfragen um die begrenzten Datenbank-Ressourcen. OLTP-Systeme sind deshalb für Echtzeitrecherchen nur die zweitbeste Wahl.

Besser geeignet sind massivparallele Datenbanksysteme, die für den Data-Warehouse-Zweck optimiert sind und solche Anforderungen in küzester Zeit bewältigen. Durch die hochgradige Automatisierung können sich Anwender ganz auf ihre Arbeit konzentrieren, da die physischen Datenmodelle schon im Hintergrund bereit stehen.

Das vernetzte Datum

Eine simple Frage kann eine gewaltige Menge Rechenoperationen nach sich ziehen. Zum Beispiel: „Welche Kunden bestellten in den letzten zwölf Monaten einen grünen Pullover, und wie viele davon sind älter als 55 Jahre?“

Sofern das System nicht genau für diese Frage bereits vorgefertigte Tabellen vorhält, kann es diese nur beantworten, wenn es sämtliche Kundendaten durchforstet, geprüft und die gekauften grünen Pullover aggregiert hat.

Hierfür muss es mindestens eine Tabelle vollständig durchsuchen (Full-Table Scan), die in den meisten relationalen Datenbanken über Fremdschlüssel wiederum auf andere Tabellen verweist, die teils gleichfalls in voller Länge mit den Zielwerten abgeglichen werden müssen (Multi-Table Join).

Soll dann noch geklärt werden, in welchen Filialen sich die Pullover am besten verkaufen, muss den gesamten Ergebnissen noch der Kundenwohnort hinzugefügt und dann nach Ortsangabe sortiert werden. Nicht nur die Komplexität der Abfragen verursacht hierbei so einen großen Aufwand, sondern gerade auch die großen Datenmengen.

Echtzeit und Datenwachstum

Herkömmliche OLTP-zentrierte Datenbankmanagementsysteme (DBMS) geraten deshalb schnell unter Druck, wenn die zu durchsuchenden Tabellen umfangreich werden und viele Nutzer sie gleichzeitig beanspruchen – in Echtzeit lassen sich die Abfragen dann gleich gar nicht mehr beantworten.

Dem begegnen diese Systeme auf dreierlei Weise:

  • Erstens bereiten sie bestimmte Daten bereits im Vorfeld auf – engen damit aber die Flexibilität der Abfragen ein.
  • Zweitens investieren sie viel Aufwand ins Tuning ihrer Leistung, etwa durch umfangreiche Indizes oder eine optimale Anordnung der Daten in den Speichereinheiten.

Beispielsweise weist ein weit verbreitetes, auf OLTP fokussiertes relationales DBMS mehr als 100 verschiedene Parameter auf, mit denen die Hauptspeicher-Caches verwaltet werden. Solcher Overhead macht das System kompliziert zu steuern und nimmt selbst Rechenzeit in Anspruch, die keinerlei produktiven Nutzen hat.

Die dritte Lösung kopiert die gesamten Daten schlicht auf zahlreiche Speichereinheiten, um mehr Nutzer gleichzeitig bedienen zu können. Allein damit beschleunigt sie aber weder Full-Table Scans noch Multi-Table Joins. Auch das Laden aktueller Daten im laufenden Betrieb, wie es für zahlreiche Business-Szenarien erforderlich ist, wird so erschwert.

weiter mit: Ungeteilte Architektur

Inhalt des Artikels:

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Kommentar abschicken

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 2052074 / ECM/Datenbanken)