Suchen

Im Test: Talend Data Quality v4 (Teil 1) Eine Einführung in die Anforderungen an hohe Datenqualität

| Autor / Redakteur: Dr. Götz Güttich / Florian Karlstetter

Das Schaffen eines hohen Datenqualitätsniveaus stellt für praktisch alle Organisationen eine große Herausforderung dar. Üblicherweise kommen die vorhandenen Datenbestände aus verschiedenen Quellen, werden von unterschiedlichen Mitarbeitern gewartet und ändern sich zudem im Lauf der Zeit. Auftakt einer dreiteiligen Reihe zum Thema Datenqualität.

Firmen zum Thema

Datenqualität in allen Beständen sicherstellen: Talend Data Quality im Praxistest.
Datenqualität in allen Beständen sicherstellen: Talend Data Quality im Praxistest.
( Archiv: Vogel Business Media )

Bei all den Datenbeständen für Konsistenz und Übersichtlichkeit zu sorgen, ist eine anspruchsvolle Aufgabe. Talend bietet mit Data Quality ein Produkt an, das sich genau mit diesem Themenbereich auseinander setzt. IAIT hat es im Testlab unter die Lupe genommen.

Damit Daten – beispielsweise eine Datenbank mit Kundenadressen – für ein Unternehmen den bestmöglichen Nutzen bringen, müssen sie den tatsächlichen Gegebenheiten entsprechen. Es sollten keine Doubletten vorhanden sein, die Postleitzahlen müssen stimmen und die Namen der Städte sollten in einer einheitlichen Schreibweise vorliegen, damit Recherchen nach bestimmten Städtenamen auch wirklich alle dazugehörigen Einträge zu Tage fördern. Ein Buchstabendreher kann hier schon dazu führen, dass wichtige Kunden im Datennirvana verschwinden und nie mehr angeschrieben werden. Datenqualität spielt aber nicht nur bei Kundenbeziehungen eine wichtige Rolle, sondern auch in andere Bereichen, wie etwa beim Verwalten des Lagerbestands, bei der Buchhaltung und beim Einkauf.

Bildergalerie

Bildergalerie mit 7 Bildern

Wie lässt sich aber eine hohe Datenqualität in allen Beständen eines Unternehmens sicherstellen? Ein Data-Quality-Tool wie die Lösung von Talend untersucht die vorhandenen Einträge und wandelt sie – im Bestfall weitgehend automatisch – in konsistente und vollständige Datensätze um. Das heißt, es entfernt Doubletten, gleicht Postleitzahlen mit Städtenamen ab und sorgt dafür, dass alle Ortsbezeichnungen gleich geschrieben werden. Auf ähnliche Weise bringt es auch Lagerdaten und Informationen aus anderen Unternehmensbereichen auf den letzten Stand.

Zugriff auf externe Datenquellen

Leistungsfähige Produkte sind sogar dazu in der Lage, auf externe Datenquellen zuzugreifen, wie beispielsweise auf Listen aus Quellen wie der geographischen Datenbank GeoNames, die für alle Postleitzahlen die dazugehörigen Städtenamen und Bundesländer aufführen. Mit ihnen ist es möglich, über alle Datensätze hinweg standardisierte Schreibweisen sicher zu stellen und die Einträge sogar um neue Informationen (wie zum Beispiel das jeweilige Bundesland) zu erweitern, die in der Originaldatenbank überhaupt nicht vorhanden waren.

Uniserv bietet im Rahmen einer strategischen Partnerschaft mit Talend ETL-Konnektoren zur Anbindung. (Bild: Uniserv)

Talend erweitert die offenen und freien Geonames-Daten - und andere frei verfügbare Quellen - übrigens noch durch Partnerschaften um weitere Faktoren, wie etwa Dienstleistungen zur Adressbereinigung von Uniserv. Kunden, die Talend Data Quality einsetzen, müssen demzufolge keine externen Informationen zukaufen, wenn sie ihre Datenbestände optimieren wollen.

Bei Einträgen, deren Format vorgegeben ist, wie beispielsweise E-Mail-Adressen, die alle zuerst ein „@“ und dann einen Punkt enthalten müssen, überprüft ein Data-Quality-Produkt bei Bedarf auch die Syntax. In vielen Fällen vergleicht das Datenqualitätswerkzeug zudem mehrere Einträge aus verschiedenen Quellen und wählt mit Hilfe unterschiedlicher Algorithmen die jeweils besten oder korrektesten Daten aus, um sie anschließend in einheitlicher Form wieder in alle Quellen zurückzuschreiben.

Auf der nächsten Seite erfahren Sie, wie man mit Hilfe von Vergleichsalgorithmen Datensätze automatisiert abgleichen und gegebenenfalls löschen kann.

(ID:2051897)