Arbeiten mit der Data Stewardship Console der Talend Data Quality Enterprise Edition Im Test: Talend Data Quality v4 (Teil 2)

Autor / Redakteur: Dr. Götz Güttich / Florian Karlstetter

Der zweite Teil der Reihe zum Thema Datenqualität geht anhand von Praxisbeispielen detailliert auf die Funktionen der Talend Data Quality Enterprise Edition und der Data Stewardship Console ein.

Firmen zum Thema

Mit Talend Data Quality zu konsistenten Datensätzen, Doublettenbereinigung und einheitlichen Schreibweisen.
Mit Talend Data Quality zu konsistenten Datensätzen, Doublettenbereinigung und einheitlichen Schreibweisen.
( Archiv: Vogel Business Media )

Der erste Teil der dreiteiligen Reihe beschäftigte sich mit einer allgemeinen Einführung in das Thema Datenqualität. Der zweite Teil beschreibt den Testaufbau der Enterprise Edition von Talend Data Quality und die Arbeit mit der Data Stewardship Console.

Der Test

Für unseren Test haben wir uns sowohl die Enterprise Edition von Talend Data Quality als auch die Data Stewardship Console genau angesehen. Dazu arbeiteten wir zunächst mit Testdaten, die uns von Talend zur Verfügung gestellt wurden und integrierten dann unsere eigenen Informationen in das System. Anschließend durchliefen wir mit ihnen die eben genannten Schritte des Profilings, des Matchings und der Record Consolidation.

Bildergalerie
Bildergalerie mit 7 Bildern

Die Installation der Data-Quality-Lösung läuft verhältnismäßig einfach ab. Wir setzten in unserer Testumgebung zunächst einen MySQL-Server auf, der die zu bearbeitenden Daten aufnehmen sollte. Dieser Arbeitsschritt wird im Unternehmensumfeld nicht erforderlich sein, da in Umgebungen, in denen Talend Data Quality zum Einsatz kommt, üblicherweise bereits eine oder mehrere Datenbanken mit Informationen vorhanden sind, die sich in Zusammenhang mit der Datenqualitätslösung nutzen lassen - diese arbeitet schließlich mit jeder SQL-Database zusammen.

Bei unserem Testsystem handelte es sich um einen Windows Server 2008 R2, der in einer virtuellen Machine auf Vmware-Basis lief, die mit acht GByteRAM und zwei CPU-Kernen ausgestattet war. Der Hersteller empfiehlt für die Data-Quality-Lösung – je nach Anwendungsbereich - Computer mit vier bis acht GByte Arbeitsspeicher. Auf dem Testrechner hatten wir vorab den Java Development Kit in der Version 6 Update 24 installiert und die „JAVA_HOME“-Systemvariable definiert, damit die Software unsere Java-Installation finden konnte.

Nachdem MySQL 5.5.9 in Betrieb war und wir die erste – zu diesem Zeitpunkt noch leere – Datenbank angelegt hatten, entpackten wir zunächst die Zip-Datei mit der Enterprise Edition von Talend Data Quality 4.1.2 in den Ordner c:\Talend. Danach installierten wir die Data Stewardship Console, die in Form einer JAR-Datei ausgeliefert wurde, mit dem dazugehörigen Java-basierten Installer in unser „Programme“-Verzeichnis. Da die Stewardship Console bereits ihre eigene Tomcat-Version mitbringt, ist an dieser Stelle nichts weiter zu tun, um das Browser-basierte Werkzeug einzurichten.

Im nächsten Schritt starteten wir Tomcat (und die Data Stewardship Console) mit Hilfe des Befehls „start.bat“ im bin-Directoy unterhalb des Tomcat-Verzeichnisses. Danach riefen wir Talend Data Quality auf (die Lösung, die wir zuvor in den Ordner „c:\Talend“ entpackt hatten) und legten ein erstes Projekt an. Dazu mussten wir erst einmal ein Repository generieren (mit dem Workspace, unserer E-Mail-Adresse und ähnlichem) und anschließend unsere Lizenz eingeben. Um die Projekterstellung zu vereinfachen, importierten wir an dieser Stelle anschließend einfach das Demoprojekt, das Talend für neue User mitliefert, die sich mit der Software vertraut machen möchten. Sobald unser neues Projekt geöffnet war, stellten wir zunächst eine Verbindung zur Datenbank für die Data Stewardship Console her.

Der Datenimport

Unser Job zum Datenimport ließ sich über nur zwei Icons realisieren. (Archiv: Vogel Business Media)

Nun ging es daran, Talend Data Quality mit den Demodaten zu füllen, die Talend uns für den ersten Teil unseres Tests zur Verfügung gestellt hatte. Diese Aufgabe wird durch ein paar vordefinierte Jobs erledigt, die Talend ebenfalls in unser Testpaket integriert hatte. Um diese Jobs auszuführen, importierten wir die Job-Daten mit Hilfe des Befehls „Datei / Importieren“ in unser Projekt. Danach wechselten wir innerhalb der Software nach „Repository / Job Designs“ und führten die eben erwähnten Jobs nacheinander aus. Die Jobs integrierten die Testdaten in die Datenbank und führten bereits eine erste Analyse aus, die ähnliche Datensätze aus verschiedenen Quellen in die Datenbank der Data Stewardship Console verschob, damit sie dort manuell untersucht werden konnten.

Als diese Schritte erledigt waren, hatten wir ein System zur Verfügung, das in etwa so aussah, wie eine Installation in einem Unternehmen, das bereits damit begonnen hatte, die Qualität der ersten Datensätze unter die Lupe zu nehmen. Auf die Schritte, die nötig sind, um Datensätze neu in die Data-Quality-Lösung zu integrieren, gehen wir später im Rahmen des Imports unserer eigenen Datenbank noch genauer ein.

weiter mit: Arbeiten mit Talend Data Quality und Data Stewardship Console

Talend Data Quality

Wenden wir uns nun dem Data Quality Werkzeug und der Data Stewardship Console zu, um einen Eindruck über die Leistungsfähigkeit dieser Komponenten zu erhalten. Bei Talend Data Quality handelt es sich um eine Software, die zum Einsatz kommt, um die Data Quality Jobs zu entwickeln und ablaufen zu lassen. Dazu setzt das Tool auf eine Eclipse-Oberfläche auf, so dass Anwender, die bereits mit der Eclipse-Entwicklungsumgebung gearbeitet haben, keine Probleme dabei haben werden, mit dem Data-Quality-Werkzeugklar zu kommen.

Wie die meisten modernen Softwareprodukte verwendet das Data-Quality-Tool eine Menüzeile am oberen Fensterrand, über die sich wesentliche Arbeiten, wie der Import und der Export von Projekten oder das Gestalten der Ansicht durchführen lassen. Darunter befindet sich eine Iconleiste, über die die Benutzer direkt auf die wichtigsten Befehle wie „Export“, „Create Job“ und ähnliches zugreifen. Das Tool lässt sich in zwei verschiedenen Modi betreiben, zunächst als „Design Workspace“ und außerdem als „Data Profiler“.

Der Design Workspace

Setzen wir uns zuerst mit dem Design Workspace auseinander, also dem Modus zum Entwickeln von Jobs. In diesem Modus offeriert das Tool auf der linken Seite des Fensters ein Repository, das alle für die Arbeit mit der Lösung relevanten Komponenten umfasst. Hier sind zunächst einmal die Jobs selbst zu nennen. Talend Data Quality hält sämtliche Jobs in einer Baumstruktur vor, so dass gleich erkennbar ist, welche Aufgaben womit zusammenhängen. In der Mitte des Fensters befindet sich der Job Designer, also die eigentliche Entwicklungsumgebung.

Im Design Workspace steht am rechten Seitenrand eine Art Werkzeugkasten namens „Palette“ mit einer Vielzahl unterschiedlicher Icons zur Verfügung, die bestimmte Funktionen repräsentieren. (Bild: Talend)

Um das Erstellen von Jobs einfach zu machen, hat Talend an dieser Stelle ein grafisches Entwicklungswerkzeug implementiert, das mit Icons arbeitet. In einer Art Werkzeugkasten namens „Palette“ auf der rechten Seite stehen eine Vielzahl unterschiedlicher Icons zur Verfügung, die bestimmte Funktionen repräsentieren. Dabei kann es sich um lokale Datenbanken oder bestimmte Systemkomponenten sowie Funktionen beziehungsweise Dateien handeln. Die Jobs werden von den Anwendern aus diesen Icons erzeugt und die zwischen den Icons angelegten Verbindungen repräsentieren dann den Weg, den die Daten nehmen, wenn der Job läuft.

Um beispielsweise Daten aus einem Excel-Sheet in eine MySQL-Datenbank zu übernehmen (wie wir es an dieser Stelle mit unserer eigenen Datenbank getan haben), zogen wir zunächst aus der Palette das vorgefertigte Icon, das Excel-Sheets repräsentiert, in den Arbeitsbereich der Entwicklungsumgebung. Danach teilten wir dem Icon unter „Eigenschaften“ über Pfad und Dateiname mit, um welche Excel-Datei es sich handeln sollte.

Im nächsten Schritt zogen wir das Icon für MySQL-Datenbanken aus der Palette auf die Arbeitsfläche und definierten – ebenfalls unter „Properties“ -, welche Datenbank auf welchem Server wir als Ziel des Datenimports verwenden wollten (hier unsere lokale MySQL-Datenbank). Zum Schluss generierten wir eine Linie zwischen den beiden Icons, die den Datenfluss wiederspiegelte. Die Eigenschaften dieser Linie ließen sich dann nutzen, um festzulegen, welche Felder der Excel-Tabelle in welche Spalten der Datenbank importiert werden, so dass Einträge wie Straße, Name und ähnliches am richtigen Zielort ankommen.

Als wir danach auf den Ausführen-Button klickten, erzeugte Talend Data Quality den für den Importvorgang erforderlichen Code automatisch und führte den Datenimport durch. Alle Informationen lassen sich im Betrieb übrigens jederzeit mit dem so genannten Data Viewer anzeigen und so verifizieren.

Das Erstellen von Jobs läuft demzufolge sehr einfach ab und dank der großen Zahl der vom Hersteller mitgelieferten Icons lassen sich mit diesem Ansatz auch komplexe Aufgaben wie das Vergleichen bestimmter Felder, das Aussortieren von Doubletten oder das Bilden von Datenblöcken realisieren. Datenblöcke sind beispielsweise in Umgebungen mit großen Datenbanken sinnvoll. Sie helfen dabei Ressourcen zu sparen, indem sie bei Vergleichsvorgängen Blöcke bilden, innerhalb derer das System die Datensätze miteinander vergleicht.

Wenn es keine Blöcke gibt, so muss die Data-Quality-Lösung jeden vorhandenen Datensatz jedem anderen Eintrag in der Datenbank gegenüberstellen, was zu einer hohen Kapazitätsauslastung führen kann. Deswegen kann es sinnvoll sein, die Vergleichsvorgänge auf bestimmte Datenblöcke – wie etwa Adressdaten aus einem Land oder Personendaten aus einem Unternehmen – zu beschränken.

Auf der nächsten Seite werden weitere Matching-Funktionen und Bedienelemente von Talend Data Quality beschrieben.

Die Icons, die die Matching-Funktionen bereitstellen, bieten den Anwendern eine große Zahl unterschiedlicher Vergleichsalgorithmen. Dazu gehören „genaue Übereinstimmung“, „genaue Übereinstimmung ohne Berücksichtigung von Groß- und Kleinschreibung“, „Soundex“, „Soundex FR“, „Jaro“, „Jaro-Winkler“, „Metaphone“, „Double Metaphone“, „Levenshtein“ und „q-grams“. Diese sind jeweils über den Menüpunkt „Einstellungen“ selektierbar.

Zum Vergleichen von Einträgen stehen verschiedene Matching-Algorithmen zur Verfügung, wie „genaue Übereinstimmung“ und „Levenshtein“. (Archiv: Vogel Business Media)

Um beim Erstellen von Jobs für eine bestmögliche Übersichtlichkeit zu sorgen, wurde die Palette übrigens in verschiedene Rubriken unterteilt, die die jeweils dazugehörigen Icons umfassen. Dabei handelt es sich um „Dateien“, „Datenbanken“, „Eigener Code“, „Internet“, „System“ und ähnliches. Die Rubrik „Eigner Code“ kommt zum Einsatz, um eigene Funktionen zu erzeugen, wenn die genannten Icons für irgendwelche Aufgabenstellungen nicht ausreichen.

Im Test fanden wir den Icon-basierten Ansatz zum Generieren von Jobs sehr überzeugend. In den meisten Fällen werden wohl auch Mitarbeiter, die von Softwareentwicklung keine Ahnung haben, dazu in der Lage sein, mit Hilfe von Talend Data Quality die Tasks anzulegen, die sie für ihre Arbeit brauchen.

Am unteren Rand des Arbeitsbereichs befinden sich diverse Reiter, die Jobinformationen wie Version, Logdateien und ähnliches sowie Kontexte wie Variablen und Werte umfassen. Dazu kommen außerdem noch Subjobs, der bereits erwähnte Reiter zum Starten der Tasks (mit Debugläufen), ein Bereich mit Fehlern, Warnungen und Informationen, ein Scheduler sowie ein Reiter, der sich mit Modulen befasst. Über den letzten Eintrag „Job Hierarchie“ lassen sich Child-Prozesse erkennen, hier ist es also möglich, zu sehen, wo sich der aktuelle Job in Bezug auf den gesamten Arbeitsablauf befindet.

Abgesehen von den Job Designs umfasst das Repository auch noch weitere Einträge wie Code Routinen, SQL Templates, Metadaten - wie SAP-Verbindungen, LDAP, Excel-Files, etc. - und die generierte Dokumentation. Darunter finden sich dann die Gliederung des jeweiligen Jobs und ein Code Viewer.

Zusätzlich zum Repository bietet Talend Data Quality den Benutzern einen so genannten Navigator. Dieser ermöglicht es ihnen, direkt auf Projektkomponenten wie Code, Dokumentation und Libraries zuzugreifen.

Ausblick auf den dritten und letzten Teil der Reihe

Der dritte und letzte Teil der Reihe befasst sich mit dem Data Profiler und weiteren Funktionen wie Matching und Record Consolidation von Talend Data Quality.

(ID:2051898)