Mit Amazon S3 Tables soll ein neuer Typ von S3 Buckets künftig eine dreifach höhere Abfragegeschwindigkeit und zehn Mal so viele Transaktionen pro Sekunde (TPS) für analytische Workloads ermöglichen. Der Tabellentyp basiert auf Apache Iceberg. Das ebenfalls neue Leistungsmerkmal Amazon S3 Metadata soll Nutzern abfragbare Objekt-Metadaten liefern, um im Hinblick auf die Datenerkundung Daten in Beinahe-Echtzeit durchsuchen, organisieren und anreichern zu können.
Matt Garman, der CEO von AWS, stellte S3 Tables und S3 Metadata vor.
(Bild: Noah Berger / AWS)
Apache Iceberg ist ein Tabellenformat, das in Data Lakes, Data Warehouses und Data Lakehouses von führenden Anbietern wie Snowflake und Databricks unterstützt wird. An offenen Formaten hat Amazon S3 bislang das für Abfragen optimierte Dateiformat Apache Parquet unterstützt, das sich mit Apace Iceberg verwalten lässt. Kunden wollen laut Amazon Web Services (AWS) solch ein mächtiges Werkzeug, um nicht nur Analysen auszuführen, sondern auch immer umfangreichere Datenmengen zu verwalten: sie zu organisieren, zu aktualisieren und vor allem um Änderungen nachzuverfolgen – ein wichtiger Sicherheitsaspekt.
Apache Iceberg erfreut sich bereits einer maßgeblichen Unterstützung, weshalb dessen Unterstützung durch AWS von Amazon-S3-Nutzern begrüßt werden dürfte. Schließlich ist Amazon S3 der erste Cloud-Object-Store gewesen, und viele sind ihm gefolgt, so etwa Apache Spark und seine kommerzielle Form Databricks. Die Amazon-S3-API stellt inzwischen einen Industriestandard dar, der von der Mehrzahl aller Storage-Anbieter unterstützt wird. Im Rahmen der „AWS re:Invent 2024“ wurden nun die neuen Funktionalitäten Amazon S3 Tables und Amazon S3 Metadata vorgestellt.
Amazon S3 Tables soll den Nutzern von Iceberg eine Menge Arbeit abnehmen. Um bessere Leistung zu erzielen, müssten sie nun keine Tabellen mehr warten noch Daten verdichten, von der diffizilen Zugriffskontrolle ganz zu schweigen. Das werde nun alles von Amazon S3 Tables erledigt. Das mache wiederum individuell angepasste Drittanbieterlösungen überflüssig, die speziell ausgebildete Bedienungsteams erforderten.
Amazon S3 Tables übernimmt automatisch Wartungsaufgaben wie die Komprimierung der Tabellen für eine bessere Abfrageleistung sowie das Management von Snapshots der Datensicherung. Dies soll eine kontinuierliche Optimierung der Abfrageleistung und Reduktion der Speicherkosten erlauben.
Mit der Erstellung eines Tabellen-Buckets sollen Kunden von Iceberg-Funktionen wie Transaktionen auf Zeilenebene, abfragbaren Snapshots durch Zeitreise-Funktionalität oder Schema-Evolution profitieren. Zusätzlich bieten Amazon S3 Tables Zugriffskontrollen auf Tabellenebene, sodass Kunden feingranulare Berechtigungen festlegen können.
Amazon S3 Tables sind bereits verfügbar. Die Integration mit dem AWS Glue Data Catalog, der Metadaten verwaltet, befindet sich in der Preview-Phase, so dass Kunden damit bereits Daten – inklusive Amazon S3 Metadata Tabellen – mit obengenannten Diensten abfragen und visualisieren können.
Verbesserte Metadatenverwaltung
Das neue Leistungsmerkmal Amazon S3 Metadata erzeugt aus den Datenobjekten, die in herkömmlichen Amazon-S3-Tabellen oder in den neuen Amazon-S3-Tables vorliegen, automatisch die nötigen Metadaten zwecks beschleunigter Abfrage und Datenerkundung. Es erzeugt zudem angepasste Metadaten mithilfe von Objektetiketten (Object Tags), speichert sie in Amazon S3 Tables, um die Datenanalyse über ganze Data Lakes hinweg zu beschleunigen.
Diese individuell anpassbaren oder systembasierten Tags können sich auf Merkmale wie Umfang, Quelle und Erstellungsdatum beziehen – also Angaben, die für vertrauenswürdige KI-Apps wichtig sind. Durch die Anpassung können Nutzer Metadaten wie etwa Artikelnummer (Stock Keeping Unit, SKU), Transaktions-Identitätsnummer, Inhaltsbewertung (etwa bei Rezensionen) und sogar Kundenprofildetails speichern. Das ist ein mächtiges, aber auch datenschutzrelevantes Werkzeug.
Aus diesen Angaben folgt, dass Amazon S3 Metadata ebenfalls Iceberg-konform ist. Der Vorteil für Nutzer liegt darin, dass sie, wie bei Amazon S3 Tables, keine eigenen Metadatensysteme oder gar Drittanbieterlösungen mithilfe von Data-Engineers aufbauen und warten müssen. Mit Amazon S3 Metadata können Unternehmen Daten für Geschäftsanalysen, Echtzeit-Inferenzanwendungen und Basismodell-Feintuning abfragen, finden und nutzen. Werden Objekte hinzugefügt oder entfernt, aktualisiert Amazon S3 Metadata automatisch die Objektmetadaten in Amazon S3 Tables und bietet Kunden dadurch stets eine aktuelle Ansicht ihrer Daten.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Metadaten lassen sich einfach mit einer SQL-Abfrage durchsuchen, und SQL (Structured Query Language) ist die verbreitetste Abfragesprache überhaupt. Damit können Daten schnell für Anwendungen wie Geschäftsanalysen und Echtzeit-Inferenzanwendungen, Feinabstimmung von Basis-KI-Modellen, Durchführung von RAG (Retrieval Augmented Generation), die Integration von Data-Warehouse- und Analyse-Workflows oder gezielten Speicheroptimierungsaufgaben gefunden und vorbereitet werden. Diese gezielte Speicheroptimierung soll helfen, Speicherkapazität zu reduzieren und sogar Intelligent Tiering zu nutzen.
Anwendungsfälle für S3 Metadata
Hier noch einmal die Use-Cases im Überblick, wie AWS sie auflistet.
1. Nutzung reichhaltiger Metadaten, um gespeicherte Daten zwecks einfacheren Auffindens und Verwendens zu katalogisieren.
2. Verwaltung und Nachverfolgung KI-generierter Videos inklusive Herkunft, Erzeugungsdatum und KI-Modell, das in Amazon Bedrock verwendet wurde.
3. Indem Objekt-Metadaten ausgewertet werden, lassen sich Möglichkeiten für die Kosteneinsparung und die Leistungssteigerung herausfinden.
4. Im Bereich der Geschäftsanalytik lassen sich relevante Datenmengen im Hinblick auf Business Intelligence und Entscheidungsfindung schnell bestimmen und auswerten.
5. Im Bereich Data Governance lassen sich die Datenorganisation und Compliance mithilfe von angepassten Metadatenanmerkungen verbessern.
Führende Unternehmen setzen bereits Amazon S3 Tables und/oder Amazon S3 Metadata ein oder planen deren Nutzung. Die folgenden Beispiele sind nur eine kleine Auswahl der Anwender, die auf den Seiten für Amazon S3 Metadata und Amazon S3 Tables verzeichnet sind.
Roche ist ein führendes Biotechnikunternehmen und plant, Amazon S3 Metadata zu nutzen, um seine künftigen Projekte im Bereich generativer KI zu beschleunigen. Da das Unternehmen LLM-basierte Apps wie etwa Chatbots für den internen Gebrauch entwickelt, erwartet es, exponentiell wachsende Mengen unstrukturierter Daten im Hinblick auf erweitertes RAG verwalten zu müssen.
„Mit S3 Metadata wird die Erstellung eines robusten Metadatensystems auf ein paar Klicks in der AWS Management Konsole erleichtert“, sagt Yannick Misteli, Head of Pharma Commercial Engineering bei Roche. „Da wir kontinuierlich mehr unstrukturierte Daten erfassen, stellt S3 Metadata die Metadaten automatisch bereit und hält sie auf dem neuesten Stand. Wir verwenden auch unsere eigenen AWS-Lambda-Funktionen, um geschäftsspezifische Metadaten zu extrahieren und sie nahtlos mit S3-Metadata in einem umfassenden AWS-Glue-Katalog zu integrieren. S3 Metadata hilft uns dabei, generative KI-Anwendungen schneller zu entwickeln, so dass wir uns auf die Erstellung statt auf die Organisation unserer Daten konzentrieren können.“
Cambridge Mobile Telematics (CMT) ist der größte Dienstleister im Telematikmarkt. Das Unternehmen sammelt Sensordaten von IoT-Geräten und reichert sie mit Kontextinformationen an, um ein vereinheitlichtes Profil von Fahrzeug und Fahrerverhalten zu erhalten. Dieses Profil können Kfz-Versicherungen, Fahrzeughersteller, Mobilitätsunternehmen und die Behörden verwenden, um Risikobewertung, Sicherheitsaspekte, Versicherungsfälle und Fahrtrainingskurse zu managen.
„CMT speichert und analysiert mehrere Petabyte an Daten von mobilen IoT-Geräten in aller Welt“, sagt Tim Vogel, Chief Information Officer bei CMT. „Je mehr CMT wächst, desto schwieriger wird es, spezifische Daten für die Entwicklung neuer Modelle und Erkenntnisse zu lokalisieren. S3 Metadata insbesondere die Funktion für benutzerdefinierte Metadaten, erlaubt es uns, alle unsere Daten mit Attributen zu versehen und diese Metadaten in einer verwalteten, abfragbaren Tabelle zu pflegen. Die Suche nach relevanten Daten erfordert lediglich eine einzige effiziente und kosteneffektive SQL-Abfrage. Dadurch wird S3 Metadata für uns zu einem Gamechanger, der es uns ermöglicht,, unseren Kunden neue Funktionalitäten anzubieten.“
Genesys, das bislang vor allem für Callcenter-Technologie und -Dienste bekannt war, ist inzwischen ein marktführendes Unternehmen für die KI-basierte Orchestrierung von Kundenerlebnissen. Mithilfe von fortschrittlicher KI sowie Funktionen für das Management von Interaktionen online und intern, hilft Genesys mehr als 8.000 Unternehmen in über hundert Ländern, personalisierte und einfühlsame Kunden- und Mitarbeitererlebnisse zu realisieren.
Es plant, S3 für seinen Data Lake zu nutzen. Indem es die Iceberg-Unterstützung in S3 Tables nutzt, erwartet Genesys, eine materialisierte Ansichtsebene für seine verschiedenen Analytikanforderungen anbieten zu können. „Der Iceberg-Support wird Genesys dabei unterstützen, komplexe Daten-Workflows zu vereinfachen, indem es zusätzliche Ebenen der Tabellenverwaltung eliminiert. S3 übernimmt automatisch zentrale Wartungsarbeiten wie etwa die Verdichtung von Tabellen, die Verwaltung von Snapshots und die Bereinigung nicht referenzierter Dateien“, sagt Glenn Nethercutt, Chief Technology Officer bei Genesys.
„Die Fähigkeit, Iceberg-Tabellen direkt aus S3 zu lesen und zu schreiben, wird uns helfen, die Leistung zu steigern und neue Möglichkeiten für die nahtlose Integration von Daten in unserem Analyse-Ökosystem zu schaffen. Diese Interoperabilität in Verbindung mit den Leistungsverbesserungen macht S3 Tables zu einem zentralen Bestandteil unserer zukünftigen Strategie, schnelle, flexible und zuverlässige Dateneinblicke zu liefern.“
Aktuelles eBook
Storage für HPC & KI
eBook „Storage für HPC & KI“
(Bild: Storage-Insider)
Speichersysteme für das HPC und für die verschiedenen Disziplinen der KI sind hohen Anforderungen ausgesetzt. Denn sie müssen enorme Datenmengen in kürzester Zeit bereitstellen oder sammeln. Wie können diese Herausforderungen gemeistert werden?
Die Themen im Überblick:
Aktuelle Trends in der Künstlichen Intelligenz
High-Performance Computing – Explosion der Innovationen