Suchen

Arbeiten mit der Data Stewardship Console der Talend Data Quality Enterprise Edition Im Test: Talend Data Quality v4 (Teil 2)

| Autor / Redakteur: Dr. Götz Güttich / Florian Karlstetter

Der zweite Teil der Reihe zum Thema Datenqualität geht anhand von Praxisbeispielen detailliert auf die Funktionen der Talend Data Quality Enterprise Edition und der Data Stewardship Console ein.

Firmen zum Thema

Mit Talend Data Quality zu konsistenten Datensätzen, Doublettenbereinigung und einheitlichen Schreibweisen.
Mit Talend Data Quality zu konsistenten Datensätzen, Doublettenbereinigung und einheitlichen Schreibweisen.
( Archiv: Vogel Business Media )

Der erste Teil der dreiteiligen Reihe beschäftigte sich mit einer allgemeinen Einführung in das Thema Datenqualität. Der zweite Teil beschreibt den Testaufbau der Enterprise Edition von Talend Data Quality und die Arbeit mit der Data Stewardship Console.

Der Test

Für unseren Test haben wir uns sowohl die Enterprise Edition von Talend Data Quality als auch die Data Stewardship Console genau angesehen. Dazu arbeiteten wir zunächst mit Testdaten, die uns von Talend zur Verfügung gestellt wurden und integrierten dann unsere eigenen Informationen in das System. Anschließend durchliefen wir mit ihnen die eben genannten Schritte des Profilings, des Matchings und der Record Consolidation.

Bildergalerie

Bildergalerie mit 7 Bildern

Die Installation der Data-Quality-Lösung läuft verhältnismäßig einfach ab. Wir setzten in unserer Testumgebung zunächst einen MySQL-Server auf, der die zu bearbeitenden Daten aufnehmen sollte. Dieser Arbeitsschritt wird im Unternehmensumfeld nicht erforderlich sein, da in Umgebungen, in denen Talend Data Quality zum Einsatz kommt, üblicherweise bereits eine oder mehrere Datenbanken mit Informationen vorhanden sind, die sich in Zusammenhang mit der Datenqualitätslösung nutzen lassen - diese arbeitet schließlich mit jeder SQL-Database zusammen.

Bei unserem Testsystem handelte es sich um einen Windows Server 2008 R2, der in einer virtuellen Machine auf Vmware-Basis lief, die mit acht GByteRAM und zwei CPU-Kernen ausgestattet war. Der Hersteller empfiehlt für die Data-Quality-Lösung – je nach Anwendungsbereich - Computer mit vier bis acht GByte Arbeitsspeicher. Auf dem Testrechner hatten wir vorab den Java Development Kit in der Version 6 Update 24 installiert und die „JAVA_HOME“-Systemvariable definiert, damit die Software unsere Java-Installation finden konnte.

Nachdem MySQL 5.5.9 in Betrieb war und wir die erste – zu diesem Zeitpunkt noch leere – Datenbank angelegt hatten, entpackten wir zunächst die Zip-Datei mit der Enterprise Edition von Talend Data Quality 4.1.2 in den Ordner c:\Talend. Danach installierten wir die Data Stewardship Console, die in Form einer JAR-Datei ausgeliefert wurde, mit dem dazugehörigen Java-basierten Installer in unser „Programme“-Verzeichnis. Da die Stewardship Console bereits ihre eigene Tomcat-Version mitbringt, ist an dieser Stelle nichts weiter zu tun, um das Browser-basierte Werkzeug einzurichten.

Im nächsten Schritt starteten wir Tomcat (und die Data Stewardship Console) mit Hilfe des Befehls „start.bat“ im bin-Directoy unterhalb des Tomcat-Verzeichnisses. Danach riefen wir Talend Data Quality auf (die Lösung, die wir zuvor in den Ordner „c:\Talend“ entpackt hatten) und legten ein erstes Projekt an. Dazu mussten wir erst einmal ein Repository generieren (mit dem Workspace, unserer E-Mail-Adresse und ähnlichem) und anschließend unsere Lizenz eingeben. Um die Projekterstellung zu vereinfachen, importierten wir an dieser Stelle anschließend einfach das Demoprojekt, das Talend für neue User mitliefert, die sich mit der Software vertraut machen möchten. Sobald unser neues Projekt geöffnet war, stellten wir zunächst eine Verbindung zur Datenbank für die Data Stewardship Console her.

Der Datenimport

Unser Job zum Datenimport ließ sich über nur zwei Icons realisieren. (Archiv: Vogel Business Media)

Nun ging es daran, Talend Data Quality mit den Demodaten zu füllen, die Talend uns für den ersten Teil unseres Tests zur Verfügung gestellt hatte. Diese Aufgabe wird durch ein paar vordefinierte Jobs erledigt, die Talend ebenfalls in unser Testpaket integriert hatte. Um diese Jobs auszuführen, importierten wir die Job-Daten mit Hilfe des Befehls „Datei / Importieren“ in unser Projekt. Danach wechselten wir innerhalb der Software nach „Repository / Job Designs“ und führten die eben erwähnten Jobs nacheinander aus. Die Jobs integrierten die Testdaten in die Datenbank und führten bereits eine erste Analyse aus, die ähnliche Datensätze aus verschiedenen Quellen in die Datenbank der Data Stewardship Console verschob, damit sie dort manuell untersucht werden konnten.

Als diese Schritte erledigt waren, hatten wir ein System zur Verfügung, das in etwa so aussah, wie eine Installation in einem Unternehmen, das bereits damit begonnen hatte, die Qualität der ersten Datensätze unter die Lupe zu nehmen. Auf die Schritte, die nötig sind, um Datensätze neu in die Data-Quality-Lösung zu integrieren, gehen wir später im Rahmen des Imports unserer eigenen Datenbank noch genauer ein.

weiter mit: Arbeiten mit Talend Data Quality und Data Stewardship Console

(ID:2051898)