Mobile-Menu

S3-Innovationen von Amazon AWS beschleunigt S3-Abfragen und -Transaktionen

Von Michael Matzer 7 min Lesedauer

Anbieter zum Thema

Mit Amazon S3 Tables soll ein neuer Typ von S3 Buckets künftig eine dreifach höhere Abfragegeschwindigkeit und zehn Mal so viele Transaktionen pro Sekunde (TPS) für analytische Workloads ermöglichen. Der Tabellentyp basiert auf Apache Iceberg. Das ebenfalls neue Leistungsmerkmal Amazon S3 Metadata soll Nutzern abfragbare Objekt-Metadaten liefern, um im Hinblick auf die Datenerkundung Daten in Beinahe-Echtzeit durchsuchen, organisieren und anreichern zu können.

Matt Garman, der CEO von AWS, stellte S3 Tables und S3 Metadata vor.(Bild:  Noah Berger / AWS)
Matt Garman, der CEO von AWS, stellte S3 Tables und S3 Metadata vor.
(Bild: Noah Berger / AWS)

Apache Iceberg ist ein Tabellenformat, das in Data Lakes, Data Warehouses und Data Lakehouses von führenden Anbietern wie Snowflake und Databricks unterstützt wird. An offenen Formaten hat Amazon S3 bislang das für Abfragen optimierte Dateiformat Apache Parquet unterstützt, das sich mit Apace Iceberg verwalten lässt. Kunden wollen laut Amazon Web Services (AWS) solch ein mächtiges Werkzeug, um nicht nur Analysen auszuführen, sondern auch immer umfangreichere Datenmengen zu verwalten: sie zu organisieren, zu aktualisieren und vor allem um Änderungen nachzuverfolgen – ein wichtiger Sicherheitsaspekt.

Bildergalerie
Bildergalerie mit 6 Bildern

Apache Iceberg erfreut sich bereits einer maßgeblichen Unterstützung, weshalb dessen Unterstützung durch AWS von Amazon-S3-Nutzern begrüßt werden dürfte. Schließlich ist Amazon S3 der erste Cloud-Object-Store gewesen, und viele sind ihm gefolgt, so etwa Apache Spark und seine kommerzielle Form Databricks. Die Amazon-S3-API stellt inzwischen einen Industriestandard dar, der von der Mehrzahl aller Storage-Anbieter unterstützt wird. Im Rahmen der „AWS re:Invent 2024“ wurden nun die neuen Funktionalitäten Amazon S3 Tables und Amazon S3 Metadata vorgestellt.

Amazon S3 Tables soll den Nutzern von Iceberg eine Menge Arbeit abnehmen. Um bessere Leistung zu erzielen, müssten sie nun keine Tabellen mehr warten noch Daten verdichten, von der diffizilen Zugriffskontrolle ganz zu schweigen. Das werde nun alles von Amazon S3 Tables erledigt. Das mache wiederum individuell angepasste Drittanbieterlösungen überflüssig, die speziell ausgebildete Bedienungsteams erforderten.

Amazon S3 Tables übernimmt automatisch Wartungsaufgaben wie die Komprimierung der Tabellen für eine bessere Abfrageleistung sowie das Management von Snapshots der Datensicherung. Dies soll eine kontinuierliche Optimierung der Abfrageleistung und Reduktion der Speicherkosten erlauben.

Mit der Erstellung eines Tabellen-Buckets sollen Kunden von Iceberg-Funktionen wie Transaktionen auf Zeilenebene, abfragbaren Snapshots durch Zeitreise-Funktionalität oder Schema-Evolution profitieren. Zusätzlich bieten Amazon S3 Tables Zugriffskontrollen auf Tabellenebene, sodass Kunden feingranulare Berechtigungen festlegen können.

Die Daten in Amazon S3 Tables lassen sich mit AWS-Analysewerkzeugen wie Amazon Athena, der Big-Data-Plattform Amazon EMR, dem Data Warehouse Amazon Redshift und dem Analysewerkzeug Amazon QuickSight abfragen, ebenso wie mit Apache Spark und anderen Open-Source-Werkzeugen, die mit Apache Iceberg kompatibel sind.

Amazon S3 Tables sind bereits verfügbar. Die Integration mit dem AWS Glue Data Catalog, der Metadaten verwaltet, befindet sich in der Preview-Phase, so dass Kunden damit bereits Daten – inklusive Amazon S3 Metadata Tabellen – mit obengenannten Diensten abfragen und visualisieren können.

Verbesserte Metadatenverwaltung

Das neue Leistungsmerkmal Amazon S3 Metadata erzeugt aus den Datenobjekten, die in herkömmlichen Amazon-S3-Tabellen oder in den neuen Amazon-S3-Tables vorliegen, automatisch die nötigen Metadaten zwecks beschleunigter Abfrage und Datenerkundung. Es erzeugt zudem angepasste Metadaten mithilfe von Objektetiketten (Object Tags), speichert sie in Amazon S3 Tables, um die Datenanalyse über ganze Data Lakes hinweg zu beschleunigen.

Diese individuell anpassbaren oder systembasierten Tags können sich auf Merkmale wie Umfang, Quelle und Erstellungsdatum beziehen – also Angaben, die für vertrauenswürdige KI-Apps wichtig sind. Durch die Anpassung können Nutzer Metadaten wie etwa Artikelnummer (Stock Keeping Unit, SKU), Transaktions-Identitätsnummer, Inhaltsbewertung (etwa bei Rezensionen) und sogar Kundenprofildetails speichern. Das ist ein mächtiges, aber auch datenschutzrelevantes Werkzeug.

Aus diesen Angaben folgt, dass Amazon S3 Metadata ebenfalls Iceberg-konform ist. Der Vorteil für Nutzer liegt darin, dass sie, wie bei Amazon S3 Tables, keine eigenen Metadatensysteme oder gar Drittanbieterlösungen mithilfe von Data-Engineers aufbauen und warten müssen. Mit Amazon S3 Metadata können Unternehmen Daten für Geschäftsanalysen, Echtzeit-Inferenzanwendungen und Basismodell-Feintuning abfragen, finden und nutzen. Werden Objekte hinzugefügt oder entfernt, aktualisiert Amazon S3 Metadata automatisch die Objektmetadaten in Amazon S3 Tables und bietet Kunden dadurch stets eine aktuelle Ansicht ihrer Daten.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Metadaten lassen sich einfach mit einer SQL-Abfrage durchsuchen, und SQL (Structured Query Language) ist die verbreitetste Abfragesprache überhaupt. Damit können Daten schnell für Anwendungen wie Geschäftsanalysen und Echtzeit-Inferenzanwendungen, Feinabstimmung von Basis-KI-Modellen, Durchführung von RAG (Retrieval Augmented Generation), die Integration von Data-Warehouse- und Analyse-Workflows oder gezielten Speicheroptimierungsaufgaben gefunden und vorbereitet werden. Diese gezielte Speicheroptimierung soll helfen, Speicherkapazität zu reduzieren und sogar Intelligent Tiering zu nutzen.

Anwendungsfälle für S3 Metadata

Hier noch einmal die Use-Cases im Überblick, wie AWS sie auflistet.

  • 1. Nutzung reichhaltiger Metadaten, um gespeicherte Daten zwecks einfacheren Auffindens und Verwendens zu katalogisieren.
  • 2. Verwaltung und Nachverfolgung KI-generierter Videos inklusive Herkunft, Erzeugungsdatum und KI-Modell, das in Amazon Bedrock verwendet wurde.
  • 3. Indem Objekt-Metadaten ausgewertet werden, lassen sich Möglichkeiten für die Kosteneinsparung und die Leistungssteigerung herausfinden.
  • 4. Im Bereich der Geschäftsanalytik lassen sich relevante Datenmengen im Hinblick auf Business Intelligence und Entscheidungsfindung schnell bestimmen und auswerten.
  • 5. Im Bereich Data Governance lassen sich die Datenorganisation und Compliance mithilfe von angepassten Metadatenanmerkungen verbessern.

Anwenderbeispiele

Führende Unternehmen setzen bereits Amazon S3 Tables und/oder Amazon S3 Metadata ein oder planen deren Nutzung. Die folgenden Beispiele sind nur eine kleine Auswahl der Anwender, die auf den Seiten für Amazon S3 Metadata und Amazon S3 Tables verzeichnet sind.

Roche ist ein führendes Biotechnikunternehmen und plant, Amazon S3 Metadata zu nutzen, um seine künftigen Projekte im Bereich generativer KI zu beschleunigen. Da das Unternehmen LLM-basierte Apps wie etwa Chatbots für den internen Gebrauch entwickelt, erwartet es, exponentiell wachsende Mengen unstrukturierter Daten im Hinblick auf erweitertes RAG verwalten zu müssen.

„Mit S3 Metadata wird die Erstellung eines robusten Metadatensystems auf ein paar Klicks in der AWS Management Konsole erleichtert“, sagt Yannick Misteli, Head of Pharma Commercial Engineering bei Roche. „Da wir kontinuierlich mehr unstrukturierte Daten erfassen, stellt S3 Metadata die Metadaten automatisch bereit und hält sie auf dem neuesten Stand. Wir verwenden auch unsere eigenen AWS-Lambda-Funktionen, um geschäftsspezifische Metadaten zu extrahieren und sie nahtlos mit S3-Metadata in einem umfassenden AWS-Glue-Katalog zu integrieren. S3 Metadata hilft uns dabei, generative KI-Anwendungen schneller zu entwickeln, so dass wir uns auf die Erstellung statt auf die Organisation unserer Daten konzentrieren können.“

Cambridge Mobile Telematics (CMT) ist der größte Dienstleister im Telematikmarkt. Das Unternehmen sammelt Sensordaten von IoT-Geräten und reichert sie mit Kontextinformationen an, um ein vereinheitlichtes Profil von Fahrzeug und Fahrerverhalten zu erhalten. Dieses Profil können Kfz-Versicherungen, Fahrzeughersteller, Mobilitätsunternehmen und die Behörden verwenden, um Risikobewertung, Sicherheitsaspekte, Versicherungsfälle und Fahrtrainingskurse zu managen.

„CMT speichert und analysiert mehrere Petabyte an Daten von mobilen IoT-Geräten in aller Welt“, sagt Tim Vogel, Chief Information Officer bei CMT. „Je mehr CMT wächst, desto schwieriger wird es, spezifische Daten für die Entwicklung neuer Modelle und Erkenntnisse zu lokalisieren. S3 Metadata insbesondere die Funktion für benutzerdefinierte Metadaten, erlaubt es uns, alle unsere Daten mit Attributen zu versehen und diese Metadaten in einer verwalteten, abfragbaren Tabelle zu pflegen. Die Suche nach relevanten Daten erfordert lediglich eine einzige effiziente und kosteneffektive SQL-Abfrage. Dadurch wird S3 Metadata für uns zu einem Gamechanger, der es uns ermöglicht,, unseren Kunden neue Funktionalitäten anzubieten.“

Bildergalerie
Bildergalerie mit 6 Bildern

Genesys, das bislang vor allem für Callcenter-Technologie und -Dienste bekannt war, ist inzwischen ein marktführendes Unternehmen für die KI-basierte Orchestrierung von Kundenerlebnissen. Mithilfe von fortschrittlicher KI sowie Funktionen für das Management von Interaktionen online und intern, hilft Genesys mehr als 8.000 Unternehmen in über hundert Ländern, personalisierte und einfühlsame Kunden- und Mitarbeitererlebnisse zu realisieren.

Es plant, S3 für seinen Data Lake zu nutzen. Indem es die Iceberg-Unterstützung in S3 Tables nutzt, erwartet Genesys, eine materialisierte Ansichtsebene für seine verschiedenen Analytikanforderungen anbieten zu können. „Der Iceberg-Support wird Genesys dabei unterstützen, komplexe Daten-Workflows zu vereinfachen, indem es zusätzliche Ebenen der Tabellenverwaltung eliminiert. S3 übernimmt automatisch zentrale Wartungsarbeiten wie etwa die Verdichtung von Tabellen, die Verwaltung von Snapshots und die Bereinigung nicht referenzierter Dateien“, sagt Glenn Nethercutt, Chief Technology Officer bei Genesys.

„Die Fähigkeit, Iceberg-Tabellen direkt aus S3 zu lesen und zu schreiben, wird uns helfen, die Leistung zu steigern und neue Möglichkeiten für die nahtlose Integration von Daten in unserem Analyse-Ökosystem zu schaffen. Diese Interoperabilität in Verbindung mit den Leistungsverbesserungen macht S3 Tables zu einem zentralen Bestandteil unserer zukünftigen Strategie, schnelle, flexible und zuverlässige Dateneinblicke zu liefern.“

Aktuelles eBook

Storage für HPC & KI

eBook Storage für HPC & KI
eBook „Storage für HPC & KI“
(Bild: Storage-Insider)

Speichersysteme für das HPC und für die verschiedenen Disziplinen der KI sind hohen Anforderungen ausgesetzt. Denn sie müssen enorme Datenmengen in kürzester Zeit bereitstellen oder sammeln. Wie können diese Herausforderungen gemeistert werden?

Die Themen im Überblick:

  • Aktuelle Trends in der Künstlichen Intelligenz
  • High-Performance Computing – Explosion der Innovationen
  • Künstliche Intelligenz – nahezu Echtzeit-Datenverarbeitung

(ID:50268313)