Im Test: Talend Data Quality v4 (Teil 3) Arbeiten mit dem Data Profiler, Matching und Record Consolidation

Autor / Redakteur: Dr. Götz Güttich / Florian Karlstetter

Wie lässt sich eine hohe Datenqualität sicherstellen? Dieser Frage ist das Institut zur Analyse von IT-Komponenten (IAIT) nachgegangen und hat am Beispiel der Enterprise Edition von Talend Data Quality wichtige Funktionen vorgestellt und beschrieben. Der dritte und letzte Teil der Reihe beschäftigt sich mit den Betriebs-Modi Data Profiler, Matching und Record Consolidation.

Firmen zum Thema

Talend Data Quality v4 im Praxistest.
Talend Data Quality v4 im Praxistest.
( Archiv: Vogel Business Media )

Nach einer allgemeinen Einführung in das Thema Datenqualität (Teil 1) und dem Testaufbau der Enterprise Edition von Talend Data Quality und der Data Stewardship Console im zweiten Teil beschäftigt sich der dritte und letzte Teil der Reihe mit den Funktionen Data Profiler, Matching und Record Consolidation.

Der Data Profiler

Wenden wir uns jetzt dem zweiten Betriebsmodus des Tools zu, dem Data Profiler. Über diesen lassen sich Datenanalysen durchführen, die beispielsweise Aufschluss darüber geben, wie viele Städtenamen in einer Datenbank fehlerhaft sind oder wie oft die Syntax der Einträge im E-Mail-Adressfeld falsch ist. Die Ergebnisse des Profilings sind folglich die Grundlage für die Record Consolidation.

Bildergalerie
Bildergalerie mit 7 Bildern

Wesentliche Funktionen des Data Profiler-Modus von Talend Data Quality finden sich auch in dem Open-Source-Werkzeug Talend Open Profiler, das auf der Website des Unternehmens zum Download bereit steht. Dieses ist allerdings nicht dazu in der Lage, Reports zu erzeugen (und so einen Überblick über alte Analyseergebnisse verfügbar zu machen), Analysen jobgesteuert anzustoßen und aus den Analyseergebnissen automatisch Regeln für die Datenintegration abzuleiten.

Der Data Profiler in Talend Data Quality gibt die Ergebnisse nicht nur in tabellarischer Form aus, sondern stellt diese auch grafisch dar. (Bild: Talend)

Mit Hilfe des genannten Modus führten wir nun im Test das Profiling durch. Über das Werkzeug lassen sich neben den bereits beschriebenen Aufgaben unter anderem auch unvollständige Adressen und Datenfelder herausfinden, die mit einem Leerzeichen beginnen. Die Analysen arbeiten mit Objekten wie Datenbankverbindungen und wenden zum Erkennen von Abweichungen Muster und Indikatoren wie maximale Länge, durchschnittliche Länge und ähnliches an.

Die Ergebnisse erscheinen nicht nur in tabellarischer Form (zum Beispiel 40 Prozent der E-Mail-Adressen sind fehlerhaft), sondern auch als grafische Darstellungen, die zum Beispiel die Korrelationen zwischen Postleitzahlen und Städtenamen zeigen.

Talend Data Quality unterstützt bei den Analysen nicht nur Datenquellen aus beliebigen SQL-Datenbanken, sondern ist auch dazu in der Lage dazu, Daten in CSV-Dateien zu untersuchen.

Um eine Analyse zu erstellen, müssen die zuständigen Mitarbeiter lediglich mit der rechten Maustaste auf das betroffene Feld klicken und den Befehl „Neue Analyse“ aufrufen. Dann startet ein Wizard, der sie zunächst nach dem Typ der Untersuchung fragt (Connection-, Catalog-, Schema-, Table-, Column-, Redundancy-oder Column-Correlation-Analysis). Dann können sie der Analyse einen Namen geben und die zu untersuchenden Komponenten hinzufügen. Es ist auch möglich, die Abfrage mit den oben bereits erwähnten Indikatoren zu versehen.

Nach einem Klick auf den Run-Button läuft die Analyse durch und gibt ihre Ergebnisse wie beschrieben in Form von Tabellen und Grafiken aus. Im Test hatten wir unsere Analysen schnell erstellt und konnten zügig auf die Ergebnisse zugreifen – sowohl bei unserer eigenen Datenbank als auch bei den Testdaten.

Zum Profiling gehören auch Reportfähigkeiten. Deswegen bietet Talend Data Quality die Möglichkeit, PDF-Reports und ähnliches zu Analysen zu erstellen. Die Reports lassen sich aus den Analysen erzeugen und jederzeit mit anderen Mitarbeitern teilen.

weiter mit Funktionen wie Matching, Record Consolidation und Data Stewardship Console.

Das Matching

Wenn das Profiling abgeschlossen wurde, kann es daran gehen, das Matching durchzuführen, um doppelte Einträge aus den Datenbanken zu entfernen. Dazu stellt der Data Profiler den Befehl „Remove Duplicats“ zur Verfügung, der automatisch einen Reinigungsjob für die gefundenen doppelten Einträge generiert. Im Test entfernten wir auf diese Weise schnell und einfach sämtliche Doubletten aus unserer Datenbank. Wie in der Einleitung bereits angesprochen, ist es aber sinnvoll, beim Erkennen der Doubletten über die Score-Funktion gewisse Grenzwerte zu setzen und inkonsistente Daten in der Data Stewardship Console manuell zu überprüfen, damit keine wichtigen Einträge verloren gehen.

Über die Matching-Funktion lässt sich auch verhindern, dass überhaupt Doubletten entstehen. So ist es beispielsweise denkbar, einen Task zu erstellen, der eingehende neue Adressdaten mit einer Referenztabelle vergleicht und die neuen Informationen nur dann in die Datenbank einträgt, wenn sie dort noch nicht vorhanden sind. Verschiedene Matching-Algorithmen sorgen in diesem Zusammenhang beispielsweise für das automatische Erkennen von Buchstabendrehern und ähnlichem.

Record Consolidation

Mit Hilfe von Data Enrichment lassen sich den Daten fehlende Teile hinzufügen. (Bild: Talend)

Mit ähnlichen Methoden wie beim Matching lassen sich auch automatisch Daten aus verschiedenen Quellen zusammenführen, um einheitliche und vollständige Datensätze zu erhalten. Zusätzlich stehen auch Aliastabellen zur Fehlerkorrektur zur Verfügung, etwa um das Format einer Bestellnummer zu vereinheitlichen (12-345 statt 12345). Dank dieser Funktionen sind viele Arbeitsschritte automatisierbar und Grenzwerte helfen wiederum dabei, unklare Datensätze auszufiltern und an die Data Stewardship Console zur Weiterverarbeitung zu übergeben.

Im Test verhielten sich die Jobs wie erwartet und lösten die offensichtlichen Unklarheiten automatisch auf, während sie zweifelhaften Fälle der Console überließen. Es ist in der Praxis aber sinnvoll, vor der Arbeit mit echten Daten erst einmal ein paar Probeläufe in einer Testumgebung durchzuführen, um die Grenzwerte optimal festzulegen. Sonst zerstört das System möglicherweise einige Datensätze oder es bleibt zu viel Handarbeit liegen.

Die Data Stewardship Console

Kommt die Datenqualitätslösung bei ihren Analysen zu keinen klaren Ergebnissen, so sollten die zuständigen Mitarbeiter die übrig gebliebenen unklaren Einträge wie bereits angesprochen manuell prüfen, vervollständigen und in die Datenbank zurückschreiben. Um diesen Schritt auf einfache Weise von einem beliebigen Ort aus durchführen zu können, steht die im zweiten Teil der Reihe näher vorgestellte Data Stewardship Console zur Verfügung. In unserem Test hatten wir zu diesem Zeitpunkt bereits mit den eben beschriebenen Methoden diverse Datenanalysen abgeschlossen, bei denen etliche Datensätze angefallen waren, die das System bei unseren Einstellungen nicht von selbst bereinigen konnte.

Folglich loggten wir uns nun mit unserem Webbrowser über die URL

http://{IP-Adresse des Servers}:8080/org.talend.datastewardship/login.jsp

bei der Data Stewardship Console ein. Danach fanden wir uns in einem Verwaltungstool wieder, das am oberen Rand über eine Menüzeile und auf der linken Seite über eine Baumstruktur verfügte. Die Menüzeile umfasste eine Suchfunktion und die Möglichkeit, die Sprache des Interfaces umzustellen (Englisch oder Französisch, Übersetzungen in viele andere Sprachen sind ebenfalls verfügbar, diese erstellt Talend in Zusammenarbeit mit der Community). Die Baumstruktur enthielt die offenen Aufgaben.

weiter mit: Arbeiten mit der Data Stewardship Console und abschließendes Fazit

An erster Stelle ist hier zunächst einmal der Knoten „Common“ erwähnenswert, denn er liefert den zuständigen Mitarbeitern unter „New Tasks“ eine Liste, die alle ungelösten Aufgaben enthält, die in der Datenbank vorhanden sind. In dieser Liste lassen sich einzelne Tasks aufrufen und abarbeiten. Neben dem Namen der Aufgabe besteht die Auflistung auch aus dem Status (New, etc.), dem Typ (Resolution und ähnliches), dem Urheber (also dem Data Quality Job, der den Task erzeugt hat), dem Datum und dem Job, der an dem Task Änderungen vorgenommen hat sowie dem Zeitpunkt dieser Modifikationen. Es ist sogar möglich, den Task – ähnlich wie einzelne Songs in einer Musiksammlung – mit einer Sternchenskala mit insgesamt fünf Sternchen zu bewerten und so Prioritäten festzulegen.

Ruft der Anwender eine Aufgabe auf, so erhält er eine Tabelle mit den Namen der vorhandenen Einträge und den unterschiedlichen Werten, die ihnen aus den verschiedenen Quellen zugewiesen wurden, also beispielsweise „Name“, „Adresse“ und „Stadt“ und dann jeweils dahinter in Spaltenform die Einträge, die in den verschiedenen Datenbanken für diese Felder existieren. Für Stadt kann das zum Beispiel in Datenbank 1 „St. Anton“ sein, in Datenbank 2 „St Anton“ und in Datenbank 3 „Sankt Anton“.

Hier ein Task mit Daten aus drei unterschiedlichen Quellen. Unterstrichene Einträge sind identisch. Die Anwender klicken einfach auf die Informationen, die sie als korrekt einstufen, um auf der linken Seite einen konsistenten Datensatz zu erzeugen. (Archiv: Vogel Business Media)

In diesen tabellarischen Auflistungen lassen sich gleiche Werte automatisch unterstreichen, was eine große Hilfe bei der Auswahl der richtigen Einträge bedeutet. Der Benutzer ist nun dazu in der Lage, aus den verschiedenen Spalten für jede Zeile den besten Wert zu selektieren und so einen einheitlichen Datensatz zusammen zu stellen, der die besten Daten sämtlicher Quellen vereint. Das Interface wurde übersichtlich gestaltet und ist praktisch selbsterklärend, so dass kein Anwender hier Probleme bekommen dürfte. Bei Bedarf lassen sich den einzelnen Feldern auch erklärende Texte hinzufügen, die das System anzeigt, wenn der Mauszeiger über einem dazugehörigen Eintrag stehen bleibt.

Genau wie für die „New Tasks“ finden sich unterhalb von „Common“ auch noch Listen zu „Resolved Tasks“ und „All Tasks“. Dazu kommt noch die genannte Sternchenwertung, die die Aufgaben unter „Starred“ nach ihrer Wichtigkeit anzeigt.

Der nächste Knoten nennt sich „Types“ und sortiert die Aufgaben nach ihrer Beschaffenheit. So gibt es Resolution Tasks, wie den eben beschriebenen, der die Aufgabe hat, Wiedersprüche in Datensätzen aufzulösen und Data Tasks, die zum Bearbeiten von Daten dienen, beispielsweise wenn es darum geht, SAP-Informationen für den Einsatz in einem Webshop um zusätzliche Felder – wie etwa die Lieferzeit – zu erweitern.

Die letzten beiden Punkte der Data Stewardship Console umfassen Tags, mit deren Hilfe die Anwender die Tasks nach eigenen Kriterien sortieren können, zum Beispiel nach Datenquellen oder auch nach thematischen Unterschieden (um die Übersichtlichkeit zu erhöhen). Dazu kommt die Administration, über die die zuständigen Mitarbeiter unter anderem dazu in der Lage sind, bestimmte Jobs bestimmten Personen zuzuweisen.

Fazit

Talend Data Quality ist schnell in eine bestehende Umgebung integriert und verfügt über eine Vielzahl unterschiedlicher Funktionen zum Aufräumen der Datenbestände. Besonders ist in diesem Zusammenhang die Icon-basierte Joberstellung zu erwähnen, die auch Mitarbeiter ohne Programmierkenntnisse in die Lage versetzt, komplexere Aufgaben beim Datenmanagement zu lösen. Auch die Reportingfunktionen konnten gefallen.

Die Data Stewardship Console, die die Aufgabe übernimmt, die Anwender beim Auflösen der letzten Unklarheiten, die sich nicht automatisch aufklären lassen, zu unterstützen, überzeugte uns ebenfalls. Die inkonsistenten Datensätze sind einfach und schnell an dieses Tool übergeben, das mit einer klar gegliederten Funktionalität daherkommt und den Benutzern so die Möglichkeit gibt, ohne großen Aufwand die Schritte durchzuführen, die beim Aufräumen der Datenbestände anfallen. Insgesamt hinterließ die Software einen hervorragenden Eindruck. Sie sollte bei keinem Unternehmen mit hohen Ansprüchen an die Datenqualität fehlen.

(ID:2051899)