Evolution für Datenbanken Informatiker züchten extrem schnelle Datenbanken
Anbieter zum Thema
Der Saarbrücker Informatik-Professor Dr. Jens Dittrich entwickelt mit seinem Team einen neuen Ansatz zur Optimierung von Datenbanken, der bisherige Herangehensweisen völlig auf den Kopf stellen soll.

Das Team um Dr. Jens Dittrich, Professor für „Big Data Analytics“ der Universität des Saarlandes, denkt althergebrachte Weisheiten der Datenwissenschaft völlig neu, wie es heißt. Dabei gehe es um zwei der wichtigsten Ressourcen unserer Zeit – Daten und Datenbanken. Ob bei einfachen Suchanfragen im Internet, der Erforschung weltbewegender Ereignisse oder beim Einsatz und der Entwicklung von Zukunftstechnologien wie KI-Chatbots: Daten gelten als Treibstoff dafür, und Datenbanken sind die Werkzeuge, die dabei helfen, diese Daten zu organisieren, zu speichern und zu analysieren.
Alles basiert auf sogenannten Indexstrukturen
Der Teil der Datenverarbeitung, mit dem sich die Saarbrücker Informatiker befassen, sind sogenannte Indexstrukturen, die die Art und Weise bestimmen, wie auf eine Datenbank zugegriffen wird, wie die Experten erklären. Indexstrukturen seien für die Arbeit mit Datenbanken unerlässlich, denn damit ließen sich gespeicherte Daten schnell und effizient auffinden. Und Indizes beschleunigten die Suche enorm, weil nicht mehr die gesamte Datenbank durchsucht werden müsse. Jeder weiß zwar, wie etwa Bibliothekskataloge sortiert sind, doch in der Informatik sind die Daten oft sehr komplex und in gigantischen Mengen vorhanden, so dass man ausgeklügeltere Methoden für das Indexieren benötigt, betont Dittrich. Indexstrukturen seien in der Informatik deshalb gut erforscht.
Eine spezielle Art der Optimierungsalgorithmen
Über Jahrzehnte hinweg wurden quasi von Hand Organisationsmethoden entwickelt, die zwar bei einer breiten Palette von Anwendungsfällen vergleichsweise gut funktionierten, aber für keinen wirklich optimiert sind. Dittrich und sein Team stellen nun einen Ansatz vor, mit dem sich für jede Datenbank und jeden Anwendungsfall passgenaue Indexstrukturen automatisch erzeugen lassen.
Die Methode nennen sie „Genetische Generische Generierung von Indexstrukturen“ (GENE). Sie basiere auf sogenannten „evolutionären Algorithmen“, einer speziellen Art der Optimierungsalgorithmen. Damit wird der natürliche Prozess der Evolution emuliert, heißt es weiter. Der Startpunkt ist ein „normaler“, nicht optimierter Index. Von diesem werden, ähnlich wie in der natürlichen Evolution auch, zufällige Mutationen erzeugt. Diese werden gemäß ihrer Leistungsfähigkeit sortiert, und nur die besten werden in der nächsten Generation weitergeführt, beschreiben die Experten. „Diese Schritte werden dann so lange wiederholt, bis sich keine nennenswerten Verbesserungen mehr zwischen den Generationen einstellen“, so Dittrich.
Auf der Suche nach dem gemeinsamen „Vorfahren“
Doch bisher wurden Indexstrukturen wie abgeschlossene Systeme behandelt. Man sagte zum Beispiel, dass für manche Probleme am besten Baumstrukturen als Organisationsmethode passen, während man bei anderen besser Hash-Tabellen bevorzugte. Die Saarbrückener betrachten nun aber alle bisherigen Indexstrukturen so, als hätten sie einen gemeinsamen „Vorfahren“. Das erlaube es den Forschern, diese „Meta-Indexstruktur“ mutieren zu lassen und die besten Eigenschaften heute geläufiger Indexstrukturen miteinander zu kombinieren, was für jede Datenbank und jeden Anwendungsfall individuell optimierbar sei. „So wollen wir für jede Datenbank eine perfekt passende und effiziente Indexstruktur ‚züchten‘, die die bisherige in der Performanz übertrifft“, erläutert der Professor.
In Vorarbeiten konnte das Team das große Potenzial dieses Ansatzes bereits zeigen: Gängige Indexstrukturen, die zuvor über Jahrzehnte hinweg händisch entwickelt wurden, können damit „wiederentdeckt“, also automatisch erzeugt oder repliziert, werden. Eine Anwendung gebe es aber noch nicht, weil es sich noch um reine Grundlagenforschung handle.
Noch mehr zum Forschungsprojekt GENE
Die Arbeit unter dem Titel „The next 50 Years in Database Indexing or: The Case for Automatically Generated Index Structures“ wurde in den Proceedings der „International Conference on Very Large Data Bases (VLDB)” veröffentlicht – einer der beiden weltweit führenden Fachkonferenzen zu Datenbanken. Zudem fördert die DFG das Projekt „GENE: Genetische Generische Generierung von Indexstrukturen“ seit Januar 2023 mit rund 300.000 Euro über drei Jahre.
Dieser Beitrag ist ursprünglich auf unserem Partnerportal Industry of Things erschienen.
(ID:49451967)