Daten in genau definierter Form Was sind strukturierte Daten (structured data)?

Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Dr. Jürgen Ehneß

Strukturierte Daten sind digitale Informationen, die in einer definierten Datenstruktur vorliegen. Die Datenstruktur ist so aufgebaut, dass sie die Informationen organisiert und ein effizientes Speichern, Verwalten und Zugreifen auf Informationsinhalte erlaubt. Oft sind strukturierte Daten in zeilen- und spaltenorientiert arbeitenden relationalen Datenbanken gespeichert. Der Zugriff auf diese Daten erfolgt mit Datenbanksprachen wie SQL.

Die wichtigsten IT-Fachbegriffe verständlich erklärt.
Die wichtigsten IT-Fachbegriffe verständlich erklärt.
(Bild: © aga7ta - Fotolia)

Der englische Begriff für strukturierte Daten lautet „structured data“. Es handelt sich um digitale Informationen, die in einer definierten Datenstruktur vorliegen. Innerhalb dieser Struktur sind die Informationen so organisiert, dass Computer und Computerprogramme sie effizient speichern, verwalten und bearbeiten können.

Unstrukturierte Rohdaten werden mit Hilfe von Datenmodellen in eine strukturierte Form gebracht. Häufig werden hierfür relationale Datenbankschemen verwendet. In diesen relationalen Datenbanken sind die Informationen zeilen- und spaltenbasiert in Tabellen gespeichert und miteinander verknüpft. Das Abfragen und Bearbeiten der Daten erfolgt über Datenbanksprachen wie SQL (Structured Query Language). Durch Normalisierung der Daten werden Inkonsistenzen und Redundanzen vermieden. Neben strukturierten Daten gibt es semistrukturierte Daten und unstrukturierte Daten.

Verschiedene Möglichkeiten der Strukturierung der Daten

In der Regel werden Daten zunächst in einer unstrukturierten Rohform generiert. Erst durch das Anwenden von Datenschemata und Datenmodellen werden sie in eine strukturierte Form gebracht. In der Informatik existieren verschiedene Möglichkeiten zur Strukturierung der Daten. Es kommen beispielsweise statistische Verfahren, Textmining oder Machine Learning zum Einsatz. Die Verfahren sind in der Lage, die Rohdaten nach bestimmten Kriterien zu klassifizieren und ihnen entsprechend ihrer Bedeutung bestimmte Datenfelder, Datenobjekte und Datentypen zuzuordnen. Diese Zuordnung bildet die Basis für das Organisieren der Daten in einer Datenstruktur wie einer relationalen Datenbank.

Abgrenzung zwischen unstrukturierten, semistrukturierten und strukturierten Daten

Abhängig vom Strukturierungsgrad ist eine grundsätzliche Unterscheidung der Daten in folgende drei Kategorien möglich:

  • strukturierte Daten,
  • semistrukturierte (halbstrukturierte) Daten,
  • unstrukturierte Daten.

Während die strukturierten Daten in einer genau definierten Form organisiert vorliegen, haben sogenannte semistrukturierte Daten nur ein strukturelles Grundgerüst. Ein oft genanntes Beispiel für semistrukturierte Daten ist die E-Mail. Der Nachrichtenkopf ist strukturiert und besitzt definierte Datenfelder für den Empfänger, Absender, Betreff und anderer Informationen. Die Nachricht selbst ist unstrukturierter Text.

Komplett unstrukturierte Daten haben keine identifizierbare Struktur. Sie bieten keinen direkten systematischen Zugriff auf einzelne Informationsinhalte. Metadaten und Daten sind miteinander vermischt. Typische unstrukturierte Daten sind Video- und Audiodateien, Texte und Bilder. Die Abfrage-, Such-, Verarbeitungs- und Analysemöglichkeiten unstrukturierter Daten sind beschränkt.

(ID:47361349)

Über den Autor