Suchen

Jetzt mit automatischer Speicherkonfiguration Preview von Spark 1.6 verfügbar

| Autor / Redakteur: Dipl. -Ing. Thomas Drilling / Rainer Graefen

Databricks hat eine Vorschau der kommenden Spark-Version 1.6 veröffentlicht, die unter anderem mit einem neuen Dataset API und einer automatischen Speicherkonfiguration aufwartet.

Firma zum Thema

Spark 1.6 bringt eine automatische Konfiguration von Speicherbereichen mit.
Spark 1.6 bringt eine automatische Konfiguration von Speicherbereichen mit.
(Bild: The Apache Software Foundation)

Das neue Dataset API für die Arbeit mit typisierten Objekten ist eine Schlüsselfunktion der kommenden Version 1.6 von Apache Spark. Es fungiert als Erweiterung der Dataframe API und soll laut Databricks die Vorteile von RDDs (Resilient Distributed Datasets) und Dataframes miteinander kombinieren.

Das neue Dataset API stellt dazu zur Kompilierungszeit gleichermaßen die statische Typisierung und Nutzerfunktionen von RDDs, wie die für Dataframes übliche Typprüfung bereit.

Automatische Speicherkonfiguration

Darüber hinaus kündigt Databricks im zugehörigen Blog-Eintrag eine automatische Speicher-Konfiguration an. Das Spark-Framework unterteilt den Speicher in separate Bereiche für die eigentliche Datenhaltung und für die Ausführung.

Bisher müssen Nutzer selbst entscheiden, wie viel Speicher sie den einzelnen Bereichen zuweisen. Mit dem in Spark 1.6 geänderten Speichermanagement muss die Größe der verschiedenen Speicherbereiche nicht mehr individuell festgelegt werden, was eine erhebliche Verbesserung darstellt.

Mehr Performance für Spark-Streaming

Ferner haben die Entwickler in der Preview-Version Änderungen an der Echtzeit-Komponente Spark Streaming angekündigt. Diese soll nicht nur beschleunigt werden, sondern auch neue Machine-Learning-Algorithmen mitbringen. Außerdem haben die Entwickler Überarbeitungen an den Programmier-Schnittstellen für R und Python vorgenommen.

Eine ausführliche Liste sämtlicher Neuerungen und Änderungen gegenüber Apache Spark 1.5 ist auf der Seite von Databricks zu finden.

(ID:43750949)

Über den Autor

Dipl. -Ing. Thomas Drilling

Dipl. -Ing. Thomas Drilling

IT-Consultant, Trainer, Freier Journalist