Fivetran hat kürzlich seine Version für Hybrid Deployment vorgestellt. Mit Hybrid Deployment können Unternehmen Datenpipelines in ihrer eigenen Umgebung sicher über die Fivetran-Plattform betreiben und eine einzige Kontrollebene für die Verwaltung aller Datenquellen bereitstellen. BigData-Insider sprach darüber mit Taylor Brown, COO und Mitgründer von Fivetran.
Taylor Brown, COO und Mitgründer von Fivetran .
(Bild: Fivetran)
„Datenintegration ist die oberste Priorität für KI-Readiness“, meint Taylor Brown, der COO von Fivetran: „Das zeigt beispielsweise eine MIT-Umfrage zum Thema der wichtigsten Investitionsbereiche für Führungskräfte.“ Es gehe aber nicht immer ausschließlich um KI: „Das mühelose Verschieben von Daten von jeder Quelle zu jedem Ziel im Unternehmen ist für datengetriebene Unternehmen der Schlüssel zum Erfolg.“ Ein Haupthindernis ist die Frage, ob Daten die Firewall passieren sollen oder nicht. Regelwerke wie die DSGVO verbieten genau dies. Hybrid Deployment ist die Antwort.
„Fivetran wurde vor zwölf Jahren gegründet, um Unternehmen dabei zu helfen, ihre Daten zu zentralisieren“, berichtet Brown. „Wir konzentrieren uns hauptsächlich darauf, Organisationen zu unterstützen, Daten von verschiedenen Standorten, sei es lokal oder in der Cloud, in ihr Data Warehouse zu verschieben.“ Die zentrale Architektur von Fivetran basiert darauf, dass alles in der Cloud und als Managed Service betrieben wird. „Der Vorteil dabei ist, dass es sich auf Tausende von Verbindungen für unsere Kunden skalieren lässt und vollständig gemanaged wird, falls etwas schiefgeht.“
Bildergalerie
Seit etwa 2015 erhalte Fivetran jedoch häufig folgendes Feedback von seinen Kunden: „Aus Sicherheitsgründen wäre es mir lieber, wenn die Daten innerhalb meiner eigenen Firewall bleiben oder lokal verarbeitet werden. Ich möchte nicht, dass meine Daten die Server von Fivetran berühren, und ich möchte sicherstellen, dass sie in der Region oder dem Standort bleiben, den ich festlege.“ In den vergangenen Jahren habe Fivetran darauf reagiert, indem es zum Beispiel in Deutschland Server bei AWS, GCP und Azure hinzugefügt habe, damit seine Kunden sicherstellen können, dass die Daten, die sie verarbeiten, in Deutschland verbleiben.
Die Herausforderung bleibt jedoch, dass manche Kunden nicht wollen, dass ihre hochsensiblen Daten auch nur ihre eigene Firewall verlassen. Im Gegensatz zu Unternehmen wie Snowflake oder Databricks gibt es laut Brown einen wesentlichen Unterschied: „Diese Unternehmen haben keinen direkten Zugriff auf alle Quelldaten oder die Quellsysteme, sondern nur auf die Daten, die in ihre Systeme eingespeist werden.“
Die Datenebene
Fivetran hingegen habe direkten Zugriff auf die tatsächlichen Systeme, so etwa auf SAP, Oracle oder Salesforce. Fivetran verfüge über eine „Data Plane“, die hinter der Firewall operiere und die Daten des Kunden von Quelle zum Ziele repliziere und verschiebe, und eine „Control Plane“, mit der man die Metadaten aus der Fivetran-Cloud heraus verwalte. „In den letzten zwei bis drei Jahren haben wir daran gearbeitet, den Fivetran-Code so zu implementieren, dass wir eine Datenebene hinter der Firewall unserer Kunden bereitstellen, die die Daten verarbeitet und entscheiden kann, welche Daten die Firewall verlassen und wohin sie gesendet werden – ob lokal oder in die Cloud“, so Brown weiter. „So kombinieren wir die Vorteile eines Managed Services mit denen einer On-Premises-Lösung in einem einzigen Angebot, das wir ‚Hybrid Deployment‘ nennen.“ Diese Steuerungsebene wird mit Agenten realisiert.
Die Rolle der Metadaten
Die Vermutung liegt nahe, dass es eine Menge Metadaten in dieser Architektur geben müsse. Dazu Brown: „Das sind Metadaten, die sich auf den Betrieb des Dienstes selbst beziehen, wie etwa der Status des letzten Updates oder wie aktuell es ist – solche Metadaten werden an den Fivetran-Kern mit seiner Steuerungsebene (‚Control Plane‘) zurückgesendet, jedoch ohne kundenspezifische Daten. Kundenbezogene Metadaten gehören dem Kunden selbst. Unsere Kunden können diese in ihr nachgelagertes Data Warehouse laden und dann in eine Metadatenlösung wie Collibra, Atlan oder Alation integrieren.“
Aber viele Daten werden ja auch von der genannten Steuerungsebene genutzt. „Fivetran nutzt nur die operativen Metadaten der Data-Pipeline-Jobs. Wenn wir beispielsweise eine Datenbank mit drei Tabellen laden und jede Tabelle bis zu einem bestimmten Datum aktualisiert wurde, dann weiß das System: ,Diese Tabelle wurde bis heute Morgen um 6 Uhr aktualisiert.‘ Beim nächsten Synchronisierungsvorgang beginnt das System also um 6 Uhr und zieht alle seitdem geänderten Daten. Sobald der Vorgang abgeschlossen ist, wird der Status auf die nächste Zeit gesetzt, beispielsweise ,Alle Daten bis 20 Uhr wurden entfernt.‘ Diese Statusinformationen werden gespeichert. Es handelt sich dabei nur um operationale Informationen der Data-Pipeline-Jobs.“
Updates in Hybrid-Deployment-Software
„Die Herausforderung bei On-Premises-Software war immer, dass sie schnell veraltet und nicht mehr mit den neuesten Versionen synchron ist“, skizziert Taylor Brown das Problem. „Mit dem System, das wir eingerichtet haben, erhalten unsere Kunden tägliche Updates, sodass es ständig auf dem neuesten Stand ist. So können wir den Datenfluss weiterhin verwalten und Änderungen sowie Fehlerbehebungen an unsere Kundenumgebungen weitergeben.“
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Kurz gesagt: „Unsere Kunden stehen vor der Herausforderung, dass sie immer mehr Verbindungen und Datensilos sowohl vor Ort als auch in der Cloud haben.“ Die Vorschriften, welche Daten wann und wo bewegt werden dürfen, würden zunehmend strenger. Sie bräuchten einen stark verwalteten und automatisierten Service, der Zugang zu all diesen Systemen hat, die benötigten Daten abruft und an das nachgelagerte Data Warehouse oder eine Cloud-Datenplattform sendet. Brown: „Das geht nur mit einem Managed Service, den Fivetran bietet. Und jetzt können wir diesen einfachen Zugang bieten, ohne dass die Daten Fivetrans Server berühren.“ Das sei der wichtigste Vorteil dieses Systems. „Und bisher haben wir damit großen Erfolg bei größeren Organisationen wie Banken, Finanzinstituten und Versicherungen gesehen. Auch Regierungsbehörden und Auftragnehmer zeigen großes Interesse an dieser Technologie.“
Support oder nicht
Das Problem mit den bisherigen Tools wie Informatica oder Talend sei nämlich, dass diese im Grunde nur als Workflow-Tools fungieren. Im Wesentlichen sagen sie: „Hier ist eine Plattform, auf der ihr all eure eigenen Konnektoren erstellen könnt. Und wenn etwas schiefgeht, müsst ihr es selbst beheben.“ Diese Message freut wohl die wenigsten Kunden.
Daher argumentiert Fivetran: „Wenn bei uns etwas schiefgeht, erkennt Fivetran diese Problem durch proaktives Monitoring und löst dieses Problem häufig, bevor Kunden wissen, dass sie dieses hatten. Es ist ein völlig anderes Ownership-Modell. Dadurch können unsere Kunden die Verantwortung für die Datenbewegung und -bereitstellung vollständig an uns übertragen, und wir übernehmen das für sie. Aber das funktioniert nur, wenn wir beobachten und verstehen können, was passiert, und das ist entscheidend für unser Hybrid-Deployment-Produkt.“ An diesem Punkt kommt die Steuerungsebene ins Spiel, die alle Metadaten sammelt und auswertet.
Den Überblick behalten
Im Wesentlichen übernimmt also Fivetrans Cloud-Managed-Service das Management dieser Pipelines, selbst wenn es sich um On-Premises- oder Hybrid-Cloud-Anwendungen handelt. Brown bestätigt den Vorteil mit einem Beispiel: „Wir haben Kunden mit Tausenden von Verbindungen. Ein Finanzinstitut in Australien hat beispielsweise 2.500 eigene Kunden. Und einer ihrer Kunden hat wiederum ein eigenes On-Premises-System. Wir setzen Fivetran-Hybrid-Deployment in jeder dieser Kundenumgebungen ein. Unser Kunde kann dadurch all diese 2.500 verschiedenen Implementierungen verwalten, Daten von On-Premises-Systemen in seine Cloud-Datenplattform replizieren und das in einer hochsystematischen und standardisierten Weise durchführen.“
Transparenz und Compliance
Der Gedanke liegt nahe, dass dies im Hinblick auf die DSGVO und ihre Gegenstücke wichtig sei. Brown bestätigt: „Wir arbeiten auch in der DACH-Region mit Banken wie etwa der Raiffeisenbank International, die vor ähnlichen Herausforderungen stehen und ebenfalls zu unseren Kunden zählen. Der Wert liegt darin, dass man bei On-Premises-Software keinen Gesamtüberblick darüber hat, was bewegt wird, und auch nicht die Compliance-Kontrollen, die man bei einem Managed Service erhält.“ Mit Hybrid Deployment könne der Kunde genau sehen, welche Daten bewegt werden, wer Zugriff auf diese Daten hat, und der Nutzer kann steuern, welche Daten verschoben werden dürfen. Bestimmte Teams könnten Zugriffsrechte für bestimmte Daten haben. So entstehe ein zentralisiertes Verständnis darüber, was tatsächlich passiere. „Fivetran ist definitiv ein Tool, das viele unserer Kunden speziell für Betriebsprüfungen einsetzen.“
Maskiert und anonym
Ein interessanter Aspekt der Lösung besteht darin, dass Fivetran sensible Daten maskieren und anonymisieren kann. „Für unsere Kunden können wir eine Hash- oder Maskierungsfunktion anwenden“, erläutert Brown. „Wenn man beispielsweise eine bestimmte Spalte hasht, kann man ein sogenanntes Salt-Schlüssel-Paar verwenden. Nutzer können sagen: ‚Okay, wir hashen diese Daten mit einem bestimmten Algorithmus.‘ Dadurch wird zum Beispiel eine Sozialversicherungsnummer oder eine Adresse verändert und in etwas anderes umgewandelt. Diese geänderten Daten werden dann in das nachgelagerte Data Warehouse geladen.“
Brown weiter: „Nutzer wissen, was dieser Hash ist, und können ihn bei Bedarf im Warehouse wieder entschlüsseln, oder sie lassen ihn einfach so.“ Der Vorteil des Hashings bestehe darin, dass Nutzer weiterhin Abfragen darüber ausführen können. „Wenn Nutzer dieselbe Hashing-Methode für unterschiedliche Datenquellen verwenden, können sie Informationen weiterhin zusammenführen, um zu wissen, dass es sich um denselben Benutzer handelt, ohne dabei wichtige Daten wie Adresse, Name oder Sozialversicherungsnummer preiszugeben.“
Ein großer Vorteil von Hybrid Deployment bestehe nun darin, dass die Nutzer zuvor die Informationen aus den On-Premises-Systemen der Kunden, wie ihrer Datenbank, herausziehen und auf Fivetrans Servern, etwa in Frankfurt, verarbeiten mussten. „Aufgrund von Vorschriften und Sicherheitsbedenken wollen viele Kunden das jedoch nicht“, so Brown. „Jetzt können wir die Daten vor Ort extrahieren, direkt neben der Datenbank, und diese Operationen durchführen – also maskieren, hashen, blockieren. Nur die resultierenden Daten werden dann auf die Cloud-Server geladen, sei es in Snowflake, Databricks oder S3.“
Fivetran garantiere, dass die Daten korrekt geladen würden. „Unsere Kunden stoßen immer wieder auf Probleme, weil sie große Datenmengen bewegen müssen. Wenn sie das selbst aufbauen oder ältere Tools verwenden, haben sie viele kaputte Pipelines, ungenaue Daten und Herausforderungen bei der Governance, wie etwa, wer Zugriff darauf hat. Letztendlich gibt es keine Garantie, dass die Daten korrekt sind oder die Genauigkeit gewährleistet ist. Fivetran kann das jedoch garantieren. Mit dem On-Premises-Zugriff oder der Hybrid-Bereitstellung stellen wir sicher, dass dies auf eine hochsichere Weise für unsere Kunden geschieht.“
Zusammenfassung
Brown fasst Fivetrans Mission so zusammen: „Unser standardisierter Ansatz zum Data-Movement trägt dazu bei, dass der Aufwand an Ressourcen und Zeit von Data Engineers und Entwicklern, zuverlässigen Zugriff auf Daten zu erhalten, reduziert wird. Die gewonnene Zeit wird dann mehr in den Bau von KI-Anwendungen und prädiktiven Analysen sowie Recommendation-Engines für unsere Kunden investiert. Das ist das, was wir letztendlich mit unserem Service wirklich ermöglichen.“