Mobile-Menu

Speichertipp: Dateisystem für Milliarden Objekte Objektmanagement mit SeaweedFS

Von Thomas Joos 2 min Lesedauer

Anbieter zum Thema

SeaweedFS kombiniert einfache Architektur mit skalierbarer Objektverwaltung. Das System eignet sich für Anwendungen mit vielen kleinen Dateien und bietet durch konstanten Zugriffspfad, flexible Replikation und optionale Cloud-Anbindung eine praktikable Alternative zu klassischen Dateisystemen.

SeaweedFS arbeitet es mit festen Datenvolumen von je bis zu 32 GiB.(Bild:  Dall-E / KI-generiert)
SeaweedFS arbeitet es mit festen Datenvolumen von je bis zu 32 GiB.
(Bild: Dall-E / KI-generiert)

SeaweedFS verfolgt einen einfachen Ansatz für verteilte Dateisysteme. Statt wie HDFS oder Ceph auf fragmentierte Chunk-Architekturen zu setzen, arbeitet es mit festen Datenvolumen, die jeweils bis zu 32 GiB fassen. Die gesamte Dateiverwaltung liegt bei den Volume-Servern, deren Metadaten vollständig im RAM gehalten werden, mit nur 16 Byte Overhead pro Datei. Der Master-Server verwaltet lediglich die Zuordnung von Volume-IDs zu Volume-Knoten. Dateioperationen erfolgen so mit konstantem Zugriffsmuster und minimalem Latenzverhalten.

SeaweedFS im Detail

Der Lesezugriff benötigt in der Regel exakt eine Festplattenoperation. Dies ist der zentrale Vorteil gegenüber dateibasierenden oder blockorientierten Systemen, bei denen Metadatenzugriffe zwangsläufig zusätzliche IO verursachen. Das Konzept entlastet den Master-Node, macht ihn skalierbar und vermeidet Engpässe bei konkurrierenden Zugriffen.

Im Gegensatz zu GlusterFS, Ceph oder MooseFS ist SeaweedFS nicht auf große Dateien optimiert, sondern auf ein Massenszenario mit Milliarden kleiner Objekte. Für Warm-Daten integriert es Cloud-Storage über Tier-basierte Ablage. Neu angelegte Volumes verbleiben auf lokalen Servern, ältere wandern mit optionalem Erasure-Coding in die Cloud. Das reduziert Speicherbedarf und senkt die Zugriffsgebühren. Trotz ausgelagerter Daten bleibt die Zugriffszeit durch direkt adressierbare URL-Schemata im Bereich einer konstanten Leseoperation.

Replikation auf Volume-Ebene

Das System bietet differenzierte Replikationsstrategien auf Volume-Ebene. Parameter wie Rack-Zugehörigkeit oder Datenzentrum können bei der Dateivergabe gezielt gesetzt werden. Der Befehl „curl http://localhost:9333/dir/assign?replication=001“ löst zum Beispiel eine einfache Rack-lokale Replikation aus. Auch die manuelle Zuweisung zu bestimmten Datenzentren ist möglich. Dies erlaubt eine präzise Topologiekontrolle in heterogenen Rechenzentrumsumgebungen. Volume-Server deklarieren ihre Rechenzentrumszugehörigkeit beim Start, was die Steuerung des Datenflusses vereinfacht.

Die Dateiidentifikation erfolgt über dreiteilige FIDs, bestehend aus Volume-ID, File-Key und File-Cookie. Diese werden im Client gespeichert oder in externen Datenbanken gelagert. Durch das Append-only-Design bleiben Dateiadressen stabil, Kompaktierung und Garbage Collection laufen im Hintergrund und beeinträchtigen keine Leseoperationen.

S3-kompatible API

SeaweedFS stellt eine vollständiges S3-kompatible API bereit, unterstützt POSIX-Attribute per Filer-Modul und bietet ein CSI-Interface für Kubernetes. Der Filer selbst ist ein stateless skalierbarer Dienst mit frei wählbarem Backend, darunter Redis, Postgres, HBase, Cassandra, MongoDB, Elastic Search und weitere. Optional lässt sich Active-Active-Replikation zwischen Filer-Knoten konfigurieren.

Für Anwendungen, die auf ein zuverlässiges, schnell anpassbares Objekt-Backend angewiesen sind, kombiniert SeaweedFS einfache Deployment-Strukturen mit außergewöhnlicher Performance bei kleinen Objekten. Speichererweiterungen erfolgen durch Hinzufügen weiterer Volume-Server ohne zwingende Rebalancing-Vorgänge. Die Skalierung folgt linear, die Verwaltung bleibt überschaubar.

Aktuelles eBook

Open-Source-Storage – Speicher-Software zum Nulltarif

eBook Open-Source-Storage
eBook „Open-Source-Storage“
(Bild: Storage-Insider)

Der Bedarf an Speicherkapazität steigt von Tag zu Tag – nicht nur, um die Daten von Produkten, Kunden und Transaktionen zu sichern, sondern auch, um Compliance-Anforderungen zu erfüllen und Auditierungen gut zu überstehen. Eine leistungsfähige Storage-Lösung ist also gefragt. Eine kostenlose Option bietet Open-Source-Software für Storage, insbesondere dann, wenn man sie selbst den eigenen Anforderungen anpassen darf.

Die Themen im Überblick:

  • Warum Storage als Open Source?
  • NAS & Objektspeicher
  • Backup & Disaster Recovery
  • Dateisysteme
  • Technologiestapel & Ökosysteme

(ID:50484601)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung