Mobile-Menu

Daten mit Grundstruktur Was sind halbstrukturierte / semistrukturierte Daten?

Von Dipl.-Ing. (FH) Stefan Luber 2 min Lesedauer

Halbstrukturierte Daten sind Daten, die eine gewisse Grundstruktur aufweisen, aber keiner vollständigen Strukturierung wie strukturierte Daten unterliegen. Sie besitzen grundlegende strukturelle Elemente und sind mit Metadaten versehen. Im Vergleich zu völlig unstrukturierten Daten lassen sich halbstrukturierte Daten einfacher durchsuchen. Hinsichtlich ihrer Skalierbarkeit sind sie flexibler zu handhaben als strukturierte Daten mit starrem Schema.

Die wichtigsten IT-Fachbegriffe verständlich erklärt.(Bild:  © aga7ta - Fotolia)
Die wichtigsten IT-Fachbegriffe verständlich erklärt.
(Bild: © aga7ta - Fotolia)

Alternative Begriffe für halbstrukturierte Daten sind semistrukturierte Daten oder teilweise strukturierte Daten. Diese Art von Daten haben eine gewisse Grundstruktur, unterliegen aber keiner vollständigen Strukturierung. Sie tragen einen Teil an Strukturinformationen und konsistente Merkmale in sich und sind beispielsweise mit strukturellen Elementen wie Tags, definierten Datenfeldern oder Metadaten ausgestattet.

Dank dieses strukturellen Grundgerüsts lassen sich semistrukturierte Daten leichter durchsuchen und analysieren als völlig unstrukturierte Daten. Im Vergleich zu strukturierten Daten mit starrem Schema verhalten sich halbstrukturierte Daten hinsichtlich der Skalierbarkeit flexibler. Typische Beispiele für halbstrukturierte Daten sind E-Mails mit strukturiertem Nachrichtenkopf und unstrukturiertem Nachrichtentext, HTML-Code, JSON-Dateien, RSS-Feeds oder XML-Dokumente. Semistrukturierte Daten sind häufig im Big-Data-Umfeld vorzufinden und werden beispielsweise für das Training von KI-Modellen oder Data Mining verwendet.

Abgrenzung halbstrukturierter Daten zu strukturierten und unstrukturierten Daten

Daten lassen sich grundsätzlich in die drei Kategorien strukturierte, unstrukturierte und halbstrukturierte Daten einteilen. Die Grenzen zwischen diesen Kategorien sind nicht starr definiert. Teilweise überschneiden sich die Kategorien.

Strukturierte Daten sind vollständig nach einem genau definierten Schema organisiert. Sämtliche Informationen lassen sich in das Schema einordnen. Typisches Beispiel für strukturierte Daten sind Daten in relationalen Datenbanken, die in Tabellenform mit Spalten und Zeilen organisiert sind. Zur Abfrage und Manipulation strukturierter Daten lassen sich Sprachen wie SQL (Structured Query Language) verwenden.

Unstrukturierte Daten folgen keinem vorgegebenen Schema. Sie haben keine identifizierbare Struktur. Ihre Daten und Metadaten sind vermischt. Aus diesem Grund sind unstrukturierte Daten schwer zu durchsuchen oder automatisiert zu analysieren. Es kann nicht direkt auf bestimmte Informationen innerhalb eines Datensatzes zugegriffen werden. Typische Beispiele für unstrukturierte Daten sind Texte, Bilder, Videos oder Audiodaten. Sind diese Daten mit strukturierten Attributen wie Metadaten oder Tags versehen, beispielsweise in den Exif-Daten (Exchangeable Image File Format) digitaler Bilder, können diese Daten je nach Definition auch der Kategorie der halbstrukturierten Daten zugeordnet werden.

(ID:49810848)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung