Mobile-Menu

Speichertipp: Git-Prinzipien für das Data-Lake-Management lakeFS als Open-Source-Datenversionskontrolle

Von Thomas Joos 2 min Lesedauer

Anbieter zum Thema

lakeFS ist ein Open-Source-Werkzeug für Data Version Control, das Objektspeicher in ein Git-ähnliches Repository verwandelt. Es ermöglicht reproduzierbare Datenoperationen, sichere ETL-Tests und Rollbacks. Damit lassen sich Data Lakes strukturiert verwalten und in moderne Analyse- und ML-Workflows integrieren.

Mit der Open-Source-Software lakeFS lassen sich Objektspeicher in Git-ähnliche Repositorys verwandeln.(Bild:  Midjourney / KI-generiert)
Mit der Open-Source-Software lakeFS lassen sich Objektspeicher in Git-ähnliche Repositorys verwandeln.
(Bild: Midjourney / KI-generiert)

lakeFS überträgt das Konzept der Versionskontrolle aus der Softwareentwicklung in die Welt der Datenspeicherung. Die Open-Source-Plattform verwandelt Objektspeicher wie AWS S3, Azure Blob Storage oder Google Cloud Storage in Git-ähnliche Repositorys. Damit können Data Lakes wie Code verwaltet werden: mit Branches, Commits und Rollbacks. Alle Änderungen am Datenbestand bleiben nachvollziehbar, reproduzierbar und lassen sich bei Bedarf rückgängig machen.

Als Projekt unter Apache-2.0-Lizenz ist lakeFS frei verfügbar und wird von einer aktiven Community getragen. Nutzer erhalten Support über Slack, GitHub und Konferenzbeiträge.

Reproduzierbarkeit und Testbarkeit von Datenpipelines

Für komplexe ETL-Prozesse, maschinelles Lernen und Analysen schafft lakeFS die Möglichkeit, isolierte Kopien produktiver Datenumgebungen zu erzeugen, ohne Daten physisch zu duplizieren. Branches erlauben es, Transformationsjobs in einer Testumgebung auszuführen und bei Erfolg in den Hauptzweig zu übernehmen. Diese Git-Analogie macht es möglich, Datenzustände über längere Zeiträume präzise nachzuvollziehen und Experimente jederzeit zu wiederholen.

Mit Write-Audit-Publish-Praktiken lassen sich Datenqualitätstests und Governance-Vorgaben automatisieren. Hooks stellen sicher, dass nur geprüfte Datensätze in die Produktionsumgebung übernommen werden. So können Validierungen von Formaten, Schemen oder Datenschutzauflagen in den Workflow integriert werden. Fehlerhafte Daten lassen sich durch Rollback auf einen früheren konsistenten Zustand korrigieren.

Integration in bestehende Daten-Ökosysteme

Die API-Kompatibilität zu S3 ermöglicht die Nutzung mit gängigen Frameworks wie Spark, Hive, Athena, DuckDB und Presto. lakeFS unterstützt strukturierte, unstrukturierte und offene Tabellenformate gleichermaßen. Die Integration in Orchestrierungstools und Machine-Learning-Pipelines eröffnet Möglichkeiten für reproduzierbare Feature-Engineering-Prozesse und deduplizierte Experimente.

Aktuelles eBook

Storage-Software als Effizienzbooster

eBook Storage-Software als Effizienzbooster
eBook „Storage-Software als Effizienzbooster“
(Bild: Storage-Insider)

Mit der geeigneten Storage-Software kann sich ein Unternehmen einen Effizienzbooster ins Haus holen oder in der Cloud abonnieren. Dieser Booster steigert nicht nur die Performance der geschäftskritischen Anwendungen, sondern optimiert auch die Kosten der bereits installierten Speichersysteme.

Die Themen im Überblick:

  • Herausforderungen eines modernen Speichersystems
  • Methoden und Technologien effizienter Speichersysteme
  • Effizienter Speicher mit Pure Storage, AWS, Cohesity und Dell

(ID:50615367)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung