Mobile-Menu

Dateisystem für riesige Datenmengen Was ist das Google File System (GoogleFS)?

Von Dipl.-Ing. (FH) Stefan Luber 2 min Lesedauer

Anbieter zum Thema

Das Google File System ist ein von Google entwickeltes Dateisystem. Es hat eine extreme Skalierbarkeit und ist für verteilte Umgebungen vorgesehen. Mit dem Dateisystem lassen sich riesige GFS-Cluster realisieren. GoogleFS wurde für Google-Anwendungen mit Datenverarbeitungsanforderungen riesiger Datenmengen wie dem Index der Google-Suche oder Google Mail entwickelt. 2010 wurde es durch ein neueres Dateisystem mit der Bezeichnung „Colossus“ abgelöst.

Die wichtigsten IT-Fachbegriffe verständlich erklärt.(Bild:  © aga7ta - Fotolia)
Die wichtigsten IT-Fachbegriffe verständlich erklärt.
(Bild: © aga7ta - Fotolia)

Abkürzungen für das Google File System sind GoogleFS oder GFS. Es handelt sich um ein von Google entwickeltes, proprietäres Dateisystem für verteilte Umgebungen. Mit dem Dateisystem lassen sich riesige GFS-Cluster mit mehr als tausend Knoten und hunderten Terabyte Daten realisieren, welche die Datenverarbeitungsanforderungen interner Anwendungen wie die Google-Suche oder Google Mail erfüllen. Das Dateisystem ist hochverfügbar, extrem skalierbar, fehlertolerant und bietet eine hohe Performance.

Für die Storage-Systeme lässt sich günstige, handelsübliche Standard-Hardware verwenden. Das Google File System ist aus einer vorherigen Entwicklung mit der Bezeichnung „BigFiles“ hervorgegangen. 2010 wurde GoogleFS durch das Nachfolgedateisystem Colossus ersetzt, das Skalierungslimitierungen aufhebt. Mit Colossus lassen sich bis zu hundertfach größer Cluster als die größten GFS-Cluster bilden.

Prinzipieller Aufbau und Funktionsweise des Google File Systems

Im Wesentlichen setzt sich das Google File System aus diesen drei Funktionskomponenten zusammen:

  • GFS-Master-Server,
  • GFS-Chunk-Server,
  • GFS-Client.

Der Master-Server koordiniert den GFS-Cluster. Er speichert die Metainformationen der Dateien und steuert die Aktivitäten im Cluster.

Auf den GFS-Chunk-Servern sind die eigentlichen Daten gespeichert. Ein Cluster kann aus Hunderten von Chunk-Servern bestehen. Die Dateien, die bis zu mehrere Gigabyte groß sein können, sind in 64 Megabyte große Chunks (Stücke) aufgeteilt, um sie über mehrere Server verteilt abzulegen. Alle Dateien sind aus Redundanzgründen mindestens dreimal pro Cluster gespeichert.

GFS-Clients sind Programme, Anwendungen oder Services mit Zugriff auf die Dateien des GoogleFS. Sie können Dateien anlegen, verändern oder löschen. Das Dateisystem ist auf das Lesen oder Anhängen neuer Daten optimiert. Löschvorgänge einzelner Dateien finden relativ selten statt.

Merkmale und Eigenschaften des Google File Systems

Die typischen Merkmale des Google File Systems sind:

  • verteiltes Dateisystem für Cluster mit mehr als tausend Servern und vielen hundert Terabyte von Daten,
  • hochverfügbar und extrem skalierbar,
  • für hohen Datendurchsatz optimiert,
  • mit Verzeichnissen hierarchisch organisiert,
  • Unterstützung der Dateioperationen Anlegen, Löschen, Öffnen, Lesen, Schließen und Schreiben von Dateien und Anhängen von Daten,
  • Aufteilung der Dateien in gleich große Chunks (Stücke),
  • automatisches mehrfaches Speichern der Dateien pro Cluster,
  • Ausfall einzelner Server wird kompensiert,
  • optimierte Performance für das Lesen und Anhängen von Daten,
  • ineffizient im Umgang mit kleinen Dateien.

(ID:48987256)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung