Im Test: Talend Data Quality v4 (Teil 3)

Arbeiten mit dem Data Profiler, Matching und Record Consolidation

Seite: 3/3

Firmen zum Thema

An erster Stelle ist hier zunächst einmal der Knoten „Common“ erwähnenswert, denn er liefert den zuständigen Mitarbeitern unter „New Tasks“ eine Liste, die alle ungelösten Aufgaben enthält, die in der Datenbank vorhanden sind. In dieser Liste lassen sich einzelne Tasks aufrufen und abarbeiten. Neben dem Namen der Aufgabe besteht die Auflistung auch aus dem Status (New, etc.), dem Typ (Resolution und ähnliches), dem Urheber (also dem Data Quality Job, der den Task erzeugt hat), dem Datum und dem Job, der an dem Task Änderungen vorgenommen hat sowie dem Zeitpunkt dieser Modifikationen. Es ist sogar möglich, den Task – ähnlich wie einzelne Songs in einer Musiksammlung – mit einer Sternchenskala mit insgesamt fünf Sternchen zu bewerten und so Prioritäten festzulegen.

Ruft der Anwender eine Aufgabe auf, so erhält er eine Tabelle mit den Namen der vorhandenen Einträge und den unterschiedlichen Werten, die ihnen aus den verschiedenen Quellen zugewiesen wurden, also beispielsweise „Name“, „Adresse“ und „Stadt“ und dann jeweils dahinter in Spaltenform die Einträge, die in den verschiedenen Datenbanken für diese Felder existieren. Für Stadt kann das zum Beispiel in Datenbank 1 „St. Anton“ sein, in Datenbank 2 „St Anton“ und in Datenbank 3 „Sankt Anton“.

Bildergalerie
Bildergalerie mit 7 Bildern
Hier ein Task mit Daten aus drei unterschiedlichen Quellen. Unterstrichene Einträge sind identisch. Die Anwender klicken einfach auf die Informationen, die sie als korrekt einstufen, um auf der linken Seite einen konsistenten Datensatz zu erzeugen. (Archiv: Vogel Business Media)

In diesen tabellarischen Auflistungen lassen sich gleiche Werte automatisch unterstreichen, was eine große Hilfe bei der Auswahl der richtigen Einträge bedeutet. Der Benutzer ist nun dazu in der Lage, aus den verschiedenen Spalten für jede Zeile den besten Wert zu selektieren und so einen einheitlichen Datensatz zusammen zu stellen, der die besten Daten sämtlicher Quellen vereint. Das Interface wurde übersichtlich gestaltet und ist praktisch selbsterklärend, so dass kein Anwender hier Probleme bekommen dürfte. Bei Bedarf lassen sich den einzelnen Feldern auch erklärende Texte hinzufügen, die das System anzeigt, wenn der Mauszeiger über einem dazugehörigen Eintrag stehen bleibt.

Genau wie für die „New Tasks“ finden sich unterhalb von „Common“ auch noch Listen zu „Resolved Tasks“ und „All Tasks“. Dazu kommt noch die genannte Sternchenwertung, die die Aufgaben unter „Starred“ nach ihrer Wichtigkeit anzeigt.

Der nächste Knoten nennt sich „Types“ und sortiert die Aufgaben nach ihrer Beschaffenheit. So gibt es Resolution Tasks, wie den eben beschriebenen, der die Aufgabe hat, Wiedersprüche in Datensätzen aufzulösen und Data Tasks, die zum Bearbeiten von Daten dienen, beispielsweise wenn es darum geht, SAP-Informationen für den Einsatz in einem Webshop um zusätzliche Felder – wie etwa die Lieferzeit – zu erweitern.

Die letzten beiden Punkte der Data Stewardship Console umfassen Tags, mit deren Hilfe die Anwender die Tasks nach eigenen Kriterien sortieren können, zum Beispiel nach Datenquellen oder auch nach thematischen Unterschieden (um die Übersichtlichkeit zu erhöhen). Dazu kommt die Administration, über die die zuständigen Mitarbeiter unter anderem dazu in der Lage sind, bestimmte Jobs bestimmten Personen zuzuweisen.

Fazit

Talend Data Quality ist schnell in eine bestehende Umgebung integriert und verfügt über eine Vielzahl unterschiedlicher Funktionen zum Aufräumen der Datenbestände. Besonders ist in diesem Zusammenhang die Icon-basierte Joberstellung zu erwähnen, die auch Mitarbeiter ohne Programmierkenntnisse in die Lage versetzt, komplexere Aufgaben beim Datenmanagement zu lösen. Auch die Reportingfunktionen konnten gefallen.

Die Data Stewardship Console, die die Aufgabe übernimmt, die Anwender beim Auflösen der letzten Unklarheiten, die sich nicht automatisch aufklären lassen, zu unterstützen, überzeugte uns ebenfalls. Die inkonsistenten Datensätze sind einfach und schnell an dieses Tool übergeben, das mit einer klar gegliederten Funktionalität daherkommt und den Benutzern so die Möglichkeit gibt, ohne großen Aufwand die Schritte durchzuführen, die beim Aufräumen der Datenbestände anfallen. Insgesamt hinterließ die Software einen hervorragenden Eindruck. Sie sollte bei keinem Unternehmen mit hohen Ansprüchen an die Datenqualität fehlen.

(ID:2051899)