Suchen

Gemeinsame Datenablage Was ist ein (Data) Repository?

| Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Dr. Jürgen Ehneß

Ein Data Repository ist eine gemeinsame Ablage für Daten unterschiedlicher Art aus verschiedenen Datenquellen. Die Daten sind logisch organisiert und lassen sich für Analysen und andere Zwecke verwenden. Typische Data Repositories sind relationale Datenbanken, Data Warehouses oder Data Lakes. Ein wichtiger Vorteil des Data Repositorys ist die zentrale Verfügbarkeit der Daten.

Die wichtigsten IT-Fachbegriffe verständlich erklärt.
Die wichtigsten IT-Fachbegriffe verständlich erklärt.
(Bild: © aga7ta - Fotolia)

Der englische Begriff Repository bedeutet im Deutschen „Lager“, „Aufbewahrungsort“ oder „Ablage“. Beim Data Repository handelt es sich um eine gemeinsame Ablage für Daten unterschiedlicher Art. Je nach Repository kann es sich um strukturierte und/oder unstrukturierte Daten handeln. Sie werden aus verschiedenen Datenquellen gesammelt und im Repository auf eine bestimmte Art logisch organisiert gespeichert. Dort stehen sie für Anwendungen wie Business-Analysen, Reporting, Sharing oder andere Zwecke wie die Archivierung zur Verfügung.

Ein Repository kann aus einer einzigen Datenbank oder einer Sammlung mehrerer Datenbanken mit unterschiedlichen Datenmodellen bestehen. Häufig wird die Bezeichnung Data Repository als Überbegriff für Datenlager wie Data Warehouses, Data Lakes oder Data Marts verwendet. Ein wichtiger Vorteil des Data Repositorys ist die zentrale Verfügbarkeit der Daten. Dadurch lassen sich Qualität und Geschwindigkeit der durchgeführten Analysen steigern.

Verschiedene Arten von Data Repositories

Data Repositories können sehr unterschiedlich organisiert und aufgebaut sein. Der Überbegriff Repository wird unter anderem für folgende Datenlager verwendet:

  • relationale Datenbanken,
  • Data Warehouses,
  • Data Lakes,
  • Data Marts,
  • Metadata Repositories.

Die einfachste Form eines Data Repositorys ist die relationale Datenbank. In ihr sind strukturierte Daten in Form von Tabellen mit Zeilen und Spalten gespeichert. Bei einem Data Warehouse handelt es sich um ein großes Repository, das Daten aus verschiedenen Quellen aggregiert, ohne dass die Daten untereinander in Beziehung stehen müssen.

Ein Data Lake sammelt ebenfalls Daten aus vielen Quellen. Es handelt sich um strukturierte und unstrukturierte Daten, die über ihre Metadaten klassifiziert sind. Die Aufbereitung, Formatierung und Strukturierung der Daten findet erst bei einer Analyse auf Basis der spezifischen Analyseanforderungen statt. Ein Data Mart ist für die Anforderungen einer bestimmten Benutzergruppe konzipiert und beispielsweise als Teil eines Data Warehouses realisiert. Der Zugriff ist bei einem Data Mart auf bestimmte Teilbereiche der Daten des Warehouses eingeschränkt. Metadata Repositories dienen als Ablageort für Daten über Daten (Metadaten). Dadurch können Datenquellen, ihre Erreichbarkeit und ihre Inhalte beschrieben werden.

Vorteile eines Data Repositorys

Typische Vorteile eines Data Repositorys sind:

  • zentrale Verfügbarkeit der Daten,
  • vereinfachtes Management der Daten und der Zugriffsrechte,
  • schnellere Durchführung von Analysen und Reportings,
  • Möglichkeit zur Archivierung der Daten.

(ID:46721452)

Über den Autor