Arbeiten mit der Data Stewardship Console der Talend Data Quality Enterprise Edition

Im Test: Talend Data Quality v4 (Teil 2)

Seite: 2/3

Firmen zum Thema

Talend Data Quality

Wenden wir uns nun dem Data Quality Werkzeug und der Data Stewardship Console zu, um einen Eindruck über die Leistungsfähigkeit dieser Komponenten zu erhalten. Bei Talend Data Quality handelt es sich um eine Software, die zum Einsatz kommt, um die Data Quality Jobs zu entwickeln und ablaufen zu lassen. Dazu setzt das Tool auf eine Eclipse-Oberfläche auf, so dass Anwender, die bereits mit der Eclipse-Entwicklungsumgebung gearbeitet haben, keine Probleme dabei haben werden, mit dem Data-Quality-Werkzeugklar zu kommen.

Wie die meisten modernen Softwareprodukte verwendet das Data-Quality-Tool eine Menüzeile am oberen Fensterrand, über die sich wesentliche Arbeiten, wie der Import und der Export von Projekten oder das Gestalten der Ansicht durchführen lassen. Darunter befindet sich eine Iconleiste, über die die Benutzer direkt auf die wichtigsten Befehle wie „Export“, „Create Job“ und ähnliches zugreifen. Das Tool lässt sich in zwei verschiedenen Modi betreiben, zunächst als „Design Workspace“ und außerdem als „Data Profiler“.

Bildergalerie
Bildergalerie mit 7 Bildern

Der Design Workspace

Setzen wir uns zuerst mit dem Design Workspace auseinander, also dem Modus zum Entwickeln von Jobs. In diesem Modus offeriert das Tool auf der linken Seite des Fensters ein Repository, das alle für die Arbeit mit der Lösung relevanten Komponenten umfasst. Hier sind zunächst einmal die Jobs selbst zu nennen. Talend Data Quality hält sämtliche Jobs in einer Baumstruktur vor, so dass gleich erkennbar ist, welche Aufgaben womit zusammenhängen. In der Mitte des Fensters befindet sich der Job Designer, also die eigentliche Entwicklungsumgebung.

Im Design Workspace steht am rechten Seitenrand eine Art Werkzeugkasten namens „Palette“ mit einer Vielzahl unterschiedlicher Icons zur Verfügung, die bestimmte Funktionen repräsentieren. (Bild: Talend)

Um das Erstellen von Jobs einfach zu machen, hat Talend an dieser Stelle ein grafisches Entwicklungswerkzeug implementiert, das mit Icons arbeitet. In einer Art Werkzeugkasten namens „Palette“ auf der rechten Seite stehen eine Vielzahl unterschiedlicher Icons zur Verfügung, die bestimmte Funktionen repräsentieren. Dabei kann es sich um lokale Datenbanken oder bestimmte Systemkomponenten sowie Funktionen beziehungsweise Dateien handeln. Die Jobs werden von den Anwendern aus diesen Icons erzeugt und die zwischen den Icons angelegten Verbindungen repräsentieren dann den Weg, den die Daten nehmen, wenn der Job läuft.

Um beispielsweise Daten aus einem Excel-Sheet in eine MySQL-Datenbank zu übernehmen (wie wir es an dieser Stelle mit unserer eigenen Datenbank getan haben), zogen wir zunächst aus der Palette das vorgefertigte Icon, das Excel-Sheets repräsentiert, in den Arbeitsbereich der Entwicklungsumgebung. Danach teilten wir dem Icon unter „Eigenschaften“ über Pfad und Dateiname mit, um welche Excel-Datei es sich handeln sollte.

Im nächsten Schritt zogen wir das Icon für MySQL-Datenbanken aus der Palette auf die Arbeitsfläche und definierten – ebenfalls unter „Properties“ -, welche Datenbank auf welchem Server wir als Ziel des Datenimports verwenden wollten (hier unsere lokale MySQL-Datenbank). Zum Schluss generierten wir eine Linie zwischen den beiden Icons, die den Datenfluss wiederspiegelte. Die Eigenschaften dieser Linie ließen sich dann nutzen, um festzulegen, welche Felder der Excel-Tabelle in welche Spalten der Datenbank importiert werden, so dass Einträge wie Straße, Name und ähnliches am richtigen Zielort ankommen.

Als wir danach auf den Ausführen-Button klickten, erzeugte Talend Data Quality den für den Importvorgang erforderlichen Code automatisch und führte den Datenimport durch. Alle Informationen lassen sich im Betrieb übrigens jederzeit mit dem so genannten Data Viewer anzeigen und so verifizieren.

Das Erstellen von Jobs läuft demzufolge sehr einfach ab und dank der großen Zahl der vom Hersteller mitgelieferten Icons lassen sich mit diesem Ansatz auch komplexe Aufgaben wie das Vergleichen bestimmter Felder, das Aussortieren von Doubletten oder das Bilden von Datenblöcken realisieren. Datenblöcke sind beispielsweise in Umgebungen mit großen Datenbanken sinnvoll. Sie helfen dabei Ressourcen zu sparen, indem sie bei Vergleichsvorgängen Blöcke bilden, innerhalb derer das System die Datensätze miteinander vergleicht.

Wenn es keine Blöcke gibt, so muss die Data-Quality-Lösung jeden vorhandenen Datensatz jedem anderen Eintrag in der Datenbank gegenüberstellen, was zu einer hohen Kapazitätsauslastung führen kann. Deswegen kann es sinnvoll sein, die Vergleichsvorgänge auf bestimmte Datenblöcke – wie etwa Adressdaten aus einem Land oder Personendaten aus einem Unternehmen – zu beschränken.

Auf der nächsten Seite werden weitere Matching-Funktionen und Bedienelemente von Talend Data Quality beschrieben.

(ID:2051898)