Zalando toleriert die "Schatten-KI"

Daten zentral verwalten, ohne die Nutzer einzuengen

| Autor / Redakteur: Karin Johanna Quack / Nico Litzel

Kshitij Kumar ist Leiter des Zalando-Bereichs Data Infrastructure.
Kshitij Kumar ist Leiter des Zalando-Bereichs Data Infrastructure. (Bild: Zalando)

Der Vorteil von Machine-Learning- und Deep-Learning-Anwendungen schwindet, wenn jedes Team das Rad neu erfindet. So die Überzeugung von Kshitij Kumar, Leiter des Zalando-Bereichs Data Infrastructure. Deshalb steht sein Team dem gesamten Zalando Fashion Store als zentrale Instanz für Data-Warehouse- und KI-Anwendungen zu Verfügung. Benötigt nun aber eine Geschäftseinheit partout etwa Eigenes, so fungieren die "Data-Infras" als Consulting- und Servicegruppe.

"Einer unserer grundsätzlichen Unternehmenswerte heißt Mut", konstatiert Kumar, den seine Kollegen schlicht "KayKay" nennen. Eine allzu strikte Reglementierung der IT-Nutzung würde sich damit wohl kaum in Einklang bringen lassen. Sie könnte die Anwender vielmehr animieren, ihre eigenen Systeme – abseits und ohne Wissen des zentralen Digital- und Technikbereichs – zu entwickeln. Dieses Phänomen ist seit dem Auftauchen von Business-Anwendungen in der Cloud als "Shadow IT" oder auch "Scheckkarten-IT" bekannt; Letzteres, weil Abteilungsleiter die Cloud-Services nicht aus dem IT-Budget bestreiten, sondern häufig mit der Kreditkarte ordern.

Für IT-Fachleute, insbesondere CIOs, ist die Schatten-IT ein Albtraum. Sie laufen Gefahr, den Überblick über die genutzten Systeme zu verlieren, haben ihre liebe Mühe, die Fremdsoftware wieder einzufangen, um sie zu integrieren, und wenn etwas schiefläuft, sollen sie die Fehler beheben. Mischen sie sich jedoch ein und versuchen gar, Verbote anzustrengen, gelten sie als Fortschrittshemmnis und "Spaßbremse". Diese Zwickmühle will Kumar vermeiden, indem er die Geschäftsbereiche auch dann unterstützt, wenn sie sich für etwas Anderes entscheiden, als der Zentralbereich Technik für sie vorgesehen hat.

Best of Breed in der Cloud

Der vor einem Jahrzehnt gegründete Online-only-Retailer Zalando betreut von Berlin aus rund 25 Millionen Kunden in 17 europäischen Ländern. Ihnen offeriert er über seinen Fashion Store ständig etwa 300.000 Artikel aus den Bereichen Kleidung, Schuhe und neuerdings auch Kosmetikprodukte. Wie viele Daten dabei Tag für Tag auflaufen, will Zalando nicht verraten. Kumar gibt nur den Hinweis: "Wir zählen in Petabytes".

Zum Teil wird die Ware auch von Third-Party-Parteien angeboten und verschickt. Zalando übernimmt dabei das Management der logistischen Abläufe. Das lohnt sich, denn die sich daraus ergebenden Kundendaten gehören dem Plattformbetreiber; der Partner bekommt übermittelt, was er für die operationale Abwicklung benötigt.

Im Zentrum der Daten-Infrastruktur befindet sich ein Data Warehouse auf Oracle-Basis. Die jüngsten Aktivitäten des Softwareunternehmens (Stichworte Cloud und "Autonomous Database") beobachtet Kumar mit Interesse: "Wir machen zwar nicht jeden Schritt mit, bleiben aber gern nah an der Anbieterstrategie".

Daneben betreibt Zalando auch Data Lakes auf Amazon Web Services (AWS), der Google-Cloud und anderen Umgebungen. "Wir setzen hier auf eine Best-of-Breed-Strategie", sagt Kumar. Die lange Zeit gehypte Open-Source-Entwicklung Hadoop lässt er dabei außen vor: "Für den Core Data Lake eignen sich S3 und Spark besser", befindet der Daten-Infrastruktur-Verantwortliche: "Hadoop hat seine Stärken woanders, und nur dort setzen wir es ein". Damit spielt der ursprünglich aus Indien stammende Kanadier augenscheinlich auf die Ad-hoc-Verarbeitung großer Mengen von unstrukturierten Daten an.

Um die Abläufe seiner Cloud-umspannenden Datenanalysen zu beschleunigen, lässt Zalando die Verarbeitung so nah wie möglich bei den Rohdaten stattfinden. So müssen nur noch die verarbeiteten Informationen bewegt werden, was Leitungskapazität und Zeit spart.

Von Anfang an DSVGO-konform

Soweit die reine Infrastruktur. Aber was fängt Zalando mit der Sintflut von Daten an? "Wir sind ein deutsches Unternehmen, also waren wir immer schon DSVGO-konform", beteuert Kumar. "Wir wollen, dass unsere Kunden glücklich sind und ein quasi personalisiertes Einkaufserlebnis haben. Aber was immer wir tun – wir speichern keine Daten mit Verbindung zu einer bestimmten Person."

Was die Kunden glücklich macht, sind sicher ein reibungsloser Einkaufsprozess, eine transparente Transportkette sowie Kleidungsstücke und Schuhe, die wirklich passen – im rein physischen Sinn und im Hinblick auf den individuellen Stil der Trägerin oder des Trägers. Ganz nebenbei erspart Letzteres dem Handelsunternehmen auch eine ganze Reihe an Retouren.

Diejenigen Kunden, die sich hinsichtlich ihres Stils nicht so ganz sicher sind, bedient Zalando mit dem in den Shop integrierten Service "Zalon". Dort beschäftigt das Unternehmen Stylisten, die für den betreffenden Kunden eigenständig Komplettausstattungen zusammenstellen. Aus den Retouren beziehungsweise den letztlich behaltenen Artikeln ermittelt ein Machine-Learning-Algorithmus die eher grob gerasterten Vorlieben des Kunden; menschliche Modeexperten überprüfen und ergänzen die Auswahl.

Für besonders preisbewusste Kundinnen und Kunden betreibt Zalando einen separaten Shopping-Club, die Zalando-Lounge. Sie bietet ein- bis zweimal pro Tag Ware aus der letzten oder vorletzten Saison zu stark reduzierten Preisen und in Form zeitlich begrenzter Aktionen. Wie Kumar versichert, werden die Daten der einzelnen Plattformen "aus Gründen des Persönlichkeitsschutzes" getrennt voneinander gehalten und verarbeitet.

Third Party, Open Source und Inner Source

Allerdings funktionieren alle drei Geschäftsmodelle umso besser, je mehr Informationen Zalando über die Bedürfnisse und Wünsche der Kunden vorliegen. Beispielsweise kann man ihr oder ihm dann jeden Artikel gleich in der passenden Größe empfehlen oder klassisches Upselling betreiben, indem man zu einem gekauften Kleidungsstück die passenden Schuhe oder Accessoires anzeigt.

Solche Empfehlungen werden längst nicht mehr handgestrickt, sondern via Machine Learning, kurz: ML, ermittelt. "Wir wollen das gesamte Unternehmen ML-fähig machen", verrät Kumar, "aber in Teilbereichen haben wir diese Technik immer schon genutzt – vor allem für die Automatisierung unserer Prozesse".

Die dazu erforderlichen Machine-Learning-Werkzeuge stellt im Prinzip der Zentralbereich Data Infrastructure zur Verfügung. Er umfasst etwa 100 Mitarbeiter, die wiederum Teil der 500-köpfigen Abteilung "Digital Foundation" sind. Daneben gibt es seit einem halben Jahr auch dezentrale, also abteilungseigene Tech-Teams. Insgesamt arbeiten rund 2.000 Menschen im Technikbereich von Zalando.

Auch für das Thema ML praktiziert Kumar das Best-of-Breed-Prinzip. Neben Open-Source-Tools übernimmt das Team auch gern die bewährten Algorithmen anderer Anwenderunternehmen, zum Beispiel von Uber, LinkedIn oder Google. "Wir bedienen uns prinzipiell dreier Quellen", stellt der Data-Management-Verantwortliche klar: "das sind Third Party, Open Source und Inner Source, also Eigenentwicklung".

Zentralbereich integriert und berät

Die Tools aus dem Zentralbereich sind bereits vorintegriert. Kumar und sein Team nehmen den Geschäftsbereichen also eine Menge Arbeit ab, die sie sonst von ihren eigentlichen Aufgaben abhalten würde. Aber nicht immer wollen sich die Abteilungen auf diesen Deal einlassen. Manche haben individuelle Bedürfnisse, die sie nur mit einer ganz bestimmten Software abdecken können – oder glauben es zumindest.

Kumar sieht seine Aufgabe auch darin, herauszufinden, ob es nicht auch mit den vorhandenen Mitteln eine Möglichkeit zur Umsetzung gäbe. Dann kann er mit den Tekkies der jeweiligen Abteilungen verhandeln, oder wie er es formuliert: "Wir sehen uns auch als Berater". Wir – das ist im Prinzip jeder Ingenieur in seiner Abteilung. Jeder von ihnen müsse ein Berater sein, also mit den Kunden sprechen, ihnen zuhören und mit ihnen gemeinsam eine tragfähige Lösung finden.

Keine Zweckentfremdung von Data Scientists

Manchmal stellt sich aber auch heraus, dass tatsächlich eine neue Umgebung erforderlich ist. "Daraus kann das Team nur lernen", räumt Kumar ein, "so bleiben wir ständig am Ball". Auch deshalb stehe er den Seitensprüngen einzelner Bereiche tolerant gegenüber. Mehr noch: Das Data-Infrastructure-Team hilft der betreffenden Geschäftseinheit bei der Umsetzung und übernimmt am Ende die Integrationsarbeit. Mit dem Erfolg, dass die neue Lösung künftig zum eigenen Portfolio gehört: "Wir lassen es sie bauen, und machen es dann für alle verfügbar", so bringt es der Abteilungsleiter auf den Punkt.

Was Kumar aber unbedingt verhindern möchte, ist die Zweckentfremdung der heiß begehrten und hoch bezahlten Datenwissenschaftler: "In vielen Unternehmen läuft es darauf hinaus, dass Data Scientists die Aufgaben der Data Engineers übernehmen und damit ihre eigentlichen Stärken vernachlässigen. Wir tun, was wir können, damit das bei uns nicht vorkommt."

* Diesen Beitrag haben wir von unserem Schwesterportal BigData-Insider übernommen.

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45750100 / Daten)