Ein Blick in den Commvault 4D Index, und wie er funktioniert Datenmanagement mit dynamischem Index

Von Olaf Dünnweller*

Anbieter zum Thema

Auf Grund rasant steigender Datenmengen gewinnt das Datenmanagement ebenso rasant an Bedeutung. Aber wie behält man den Überblick über den Datenbestand? Ein Beispiel dafür liefert der „4D-Index“ von Commvault, mit dessen Hilfe sich Daten aus Backups, Archiven oder Live-Quellen analysieren lassen.

Um wachsende Datenmengen im Griff zu behalten, benötigt man eine entsprechende Datenmanagementlösung. Als Beispiel dient uns hier der Commvault „4D Index“.
Um wachsende Datenmengen im Griff zu behalten, benötigt man eine entsprechende Datenmanagementlösung. Als Beispiel dient uns hier der Commvault „4D Index“.
(Bild: gemeinfrei / Pixabay)

Wenn es Ihrer Rolle entspricht, kennen Sie wirklich die Ihnen anvertrauten Daten Ihres Unternehmens? Wenn Sie diese Frage mit „ja“ beantworten, gehören Sie zu einer Minderheit: Gleich der Spitze eines Eisbergs liegen viele Daten im Verborgenen, seien es diejenigen, die für Innovation dringend nötig wären, oder diejenigen, die Speicherplatz und Administrationszeit fressen. Irgendwann kommt oft der Punkt, an dem die Auseinandersetzung mit den Daten unumgänglich wird: Ob es um Datenschutzinitiativen, einen Wechsel in der Unternehmensführung, rechtliche Änderungen, unschöne Erfahrungen mit Ransomware oder einen Data Breach geht.

Wie aber genau lassen sich Daten aus Backups, Archiven oder Live-Quellen analysieren und automatisiert Regeln auf diese Daten anwenden? Bei Commvault ist das Toolset „Commvault Activate“ mit dem so genannten „4D-Index“ dafür verantwortlich. Der dynamische Index greift auf künstliche Intelligenz (KI) zurück, um das Verständnis für Daten über Datenquellen und Datentypen hinweg zu optimieren. Unternehmen erhalten dadurch mehr Informationen über ihre Daten, unabhängig davon, ob sie mit Werkzeugen von Drittanbietern, Commvault-Tools oder bislang überhaupt nicht verwaltet werden. Wenn „Commvault Activate“ gemeinsam mit Commvault Complete Backup & Recovery verwendet wird, können Kunden das gewonnene Datenwissen in die indexierte Sammlung von Backup- und Archivdaten-Instanzen einbinden. Dies führt zu einer vollständig virtualisierten Datenlandschaft.

Im 4D-Index sind namentlich alle Daten zu finden, die über die Backup-und-Recovery-Plattform verwaltet oder definiert werden. Er deckt vier Aspekte ab, die für ein gutes Datenmanagement essenziell sind:

  • 1. grundlegende Metadaten,
  • 2. Indexierung,
  • 3. Klassifikation,
  • 4. Advanced Insights.

1. Grundlegende Metadaten

Bei regelmäßigen Backups und Archivierungen werden grundlegende Metadaten über die entsprechenden Daten gesammelt und in den Index geladen. Dies ist entscheidend für den Prozess selbst, aber auch für den Rückruf oder die Wiederherstellung der Daten. Die Metadaten für eine E-Mail könnten Elemente wie Betreff, von, bis, Datum des Versands, Empfangsdatum, Größe und so weiter sein. Bei einer Datei könnte es sich um Pfad, Speicherort, Größe, Erstellungsdatum, Erstellungsdatum, Änderungsdatum, Eigentümer, letzter Bearbeiter handeln. Diese grundlegenden Metadaten und die Indexierung sind Standard innerhalb von Commvault Complete Backup & Recovery und lassen sich durchsuchen, um eine Self-Service-Wiederherstellung und andere operative Aufgaben zu unterstützen.

2. Indizierung von Inhalten

Dieser Bereich wird manchmal auch als Volltextindizierung bezeichnet, aber Daten lassen sich auch in zusätzliche Metadatenfelder innerhalb des Index laden. Diese Text können in Office-Dateien, E-Mails, PDF-Dateien und einer Vielzahl anderer unstrukturierter, halbstrukturierter und strukturierter Datenquellen enthalten sein. Sobald diese anderen Metadaten gefüllt sind, können Suchen darauf angepasst werden, so dass sich Schlüsselwörter oder Phrasen in den Dateien finden oder Archivierungsrichtlinien basierend auf dem Inhalt der Dateien anwenden lassen. Activate kann die Sammlung dieser zusätzlichen Metadaten über die direkt von Commvault verwalteten Daten hinaus erweitern und Datenquellen indizieren, die sich „live“ in Produktionssystemen befinden.

Der Commvault-4D-Index.
Der Commvault-4D-Index.
(Bild: Commvault)

3. Klassifikation

Bei der Klassifizierung von Daten kommt ein Prozess zum Einsatz, der „Entitätserkennung“ oder „Entitätsextraktion“ genannt wird und es ermöglicht, bestimmte Arten von Informationen zu identifizieren, die in den Daten gespeichert werden könnten. So können Unternehmen Kategorien/Typen von Daten (Entitäten) definieren und die Kategorien durchsuchbar machen. Beispiele hierfür sind sensible Daten, PII-Flaggen, Kreditkartennummern, Kunden-IDs, Stimmungsanalysen, Bestellnummern, allgemeine finanzielle Details. Die Idee dabei ist, dass Administratoren ein Muster für zum Beispiel ein Führerscheinformat definieren. Bei der Durchführung der Inhaltsindexierung wird der Volltext nach Übereinstimmungen mit den Mustern durchsucht, und diese Übereinstimmungen werden in Metadatenfeldern für diese Entität gespeichert. Diese werden extrahiert, so dass sie dann nach einer bestimmten Führerscheinnummer oder nach einem Asset suchen können, das aussieht, als könnte es eine beliebige Führerscheinnummer enthalten.

Dies ist ein zentrales Element, um sensible Daten zu verwalten und das mit ihnen verbundene Risiko zu verringern, da sichtbar wird, wenn persönliche oder sensible Daten vorhanden sind oder verarbeitet werden.

4. Advanced Insights

Verschiedene intelligente Algorithmen von Technologiepartnern wie Microsoft, Google und AWS helfen dabei, den Index anzureichern. Künstliche Intelligenz gibt es in vielen Formen, und ob es sich nun um statistische wie maschinelles Lernen (ML), semantische wie natürliche Sprachverarbeitung (NLP) oder andere KI-Techniken handelt – das Ziel ist es, die Informationen über Daten anzureichern, um Daten besser durchsuchbar, zugänglich, nutzbar zu machen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Wenn alle vier Bereiche gut umgesetzt und miteinander verknüpft werden, lassen sich einige leistungsstarke Szenarien verwirklichen, um Daten nicht nur intelligent zu finden und zu verwalten, sondern auch zu visualisieren und einen zusätzlichen Wert daraus abzuleiten.

Beispiele könnten sein:

  • Kulanz bei Schreibfehler bei der Sucheingabe oder der Asset-Benennung zeigen.
  • Dokumente so klassifizieren, dass Tasks wie „Alle Verträge finden“, „Alle Verträge, die eine solche Klausel enthalten“ finden, einfach handhabbar sind.
  • Die Bedeutung und den Kontext von Rich Media berücksichtigen, so dass Dokumente sich smart durchsuchen lassen – „Alle Bilder von Katzen finden“, „Alle Bilder mit Stoppschild und rotem Auto finden“, „Alle Bilder von Dokumenten finden, die wie Bestellungen aussehen“, „Liste mit Videos finden, die Commvault Virtual Connections mehr als fünf Mal erwähnen“.
  • Bei der Ausgabe von Suchergebnissen und bei Empfehlungen berücksichtigen, ob die Dokumente tatsächlich aufgerufen werden, und so mit der Zeit erkennen, ob die Suchbegriffe mit den tatsächlich konsumierten Inhalten übereinstimmen.

Ranga Rajagopalan, VP of Products bei Commvault, fasst in einem 20-Minuten-Video zusammen, wie der Commvault 4D-Index technische Metadaten sammeln, Text für durchsuchbare Inhalte extrahieren, Entitäten erkennen und klassifizieren und Tools von Drittanbietern mit Erkenntnissen bereichern kann.

Olaf Dünnweller, VP Sales bei Commvault.
Olaf Dünnweller, VP Sales bei Commvault.
(Bild: Commvault)

Fazit

Ein dynamischer Index kann das Wissen über die vorhandenen Datenbestände signifikant verbessern – und so aus vermeintlich dummen Daten praktischen Mehrwert ziehen. Immer neue Schnittstellen ermöglichen die Inventarisierung und Indexierung von Daten aus Quellen wie Online-Datenspeichern, aktiven Endgeräten oder neuen O365-SaaS-Cloud-Datenspeichern. Damit können Daten im Rahmen einer ganzheitlichen, unternehmensweiten Betrachtung ausgewertet werden. Diese Daten werden durch die Kombination technischer Metadaten mit dem Kontext von Benutzer- oder Geschäftsanwendungen, Klassifizierungs-/Entity-Rules und mit Rich-Content-Analysen indexiert. So gewinnen Manager ein vollständiges Bild ihrer Datenumgebung und treffen bessere Geschäftsentscheidungen.

*Der Autor: Olaf Dünnweller ist VP Sales bei Commvault, Anbieter von Backup, Recovery und Archivierung in hybriden IT-Umgebungen

(ID:46485923)