Daten in Rohform Was sind unstrukturierte Daten (unstructured data)?

Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Dr. Jürgen Ehneß

Unstrukturierte Daten sind digitale Informationen, die in einer Rohform vorliegen. Die unstrukturierte Form erlaubt Computern keinen direkten systematischen Zugriff auf bestimmte Informationsinhalte. Typische unstrukturierte Daten sind Video- und Audiodateien, Texte und Bilder. Die Informationen der unstrukturierten Daten lassen sich nicht in relationalen Datenbankschemata abbilden. Neben unstrukturierten Daten gibt es noch strukturierte und halbstrukturierte Daten.

Die wichtigsten IT-Fachbegriffe verständlich erklärt.
Die wichtigsten IT-Fachbegriffe verständlich erklärt.
(Bild: © aga7ta - Fotolia)

Der englische Begriff für unstrukturierte Daten lautet „unstructured data“. Es handelt sich um digitalisierte Informationen, die einer unstrukturierten Rohform vorliegen. Sie haben eine für Computerprogramme nicht identifizierbare oder direkt zugängliche Datenstruktur. Im Gegensatz zu strukturierten Daten lassen sich die Informationen nicht in zeilen- und spaltenorientierten relationalen Datenbankenschemata abbilden. Typische Beispiele für unstrukturiert vorliegende Daten sind Audiodaten, Videodaten, Bilder, digital aufgezeichnete Sprache, Texte, Präsentationen oder Social-Media-Kommentare.

Da der Zugriff auf die in den unstrukturierten Daten vorhandenen Informationen für Computerprogramme stark eingeschränkt ist, weil sie beispielsweise keine SQL-basierten Abfragen durchführen können, sind die automatischen Verarbeitungs- und Analysemöglichkeiten begrenzt. Um die relevanten Informationen zu finden und die Daten zu verarbeiten, ist es zunächst notwendig, eine Struktur aus den Daten zu gewinnen. Im IT-Umfeld existieren zahlreiche Anwendungen und Konzepte, um unstrukturierte Daten zu strukturieren, zu speichern, auszulesen, zu analysieren und zu verarbeiten.

Abgrenzung zwischen unstrukturierten, semistrukturierten und strukturierten Daten

Abhängig vom Strukturierungsgrad ist eine grundsätzliche Unterscheidung der Daten in folgende drei Kategorien möglich:

  • strukturierte Daten,
  • semistrukturierte (halbstrukturierte) Daten,
  • unstrukturierte Daten.

Während die unstrukturierten Daten keine eindeutige Datenstruktur haben und die Informationen nicht in voneinander abhängigen Datenfeldern normalisiert gespeichert sind, besitzen halbstrukturierte Daten ein strukturelles Grundgerüst. Ein typisches Beispiel semistrukturierter Daten sind E-Mails. Sie besitzen im Nachrichtenkopf strukturierte Datenfelder für Absenderadressen, Empfängeradressen, Betreffzeilen und andere Informationen. Die eigentliche Nachricht liegt jedoch in Form von unstrukturierten Daten als Text vor.

Bei strukturierten Daten sind Format und Datenstruktur fest vorgegeben. Alle Informationen lassen sich in dieser Struktur in Datenfelder einordnen. Werden strukturierte Daten in relationalen Datenbanken gespeichert, haben die Informationen bestimmte Zeilen- und Spaltenpositionen und stehen mit anderen Informationen in definierten Beziehungen. Computerprogramme können aufgrund der Struktur gezielt auf einzelne Informationen zugreifen und sie bearbeiten. Zum Auslesen und Bearbeiten der Daten kommen Sprachen wie SQL (Structured Query Language) zum Einsatz.

Typische Probleme im Umgang mit unstrukturierten Daten

Typische Probleme im Umgang mit unstrukturierten Daten sind:

  • Computerprogramme können nicht direkt auf bestimmte Informationen zugreifen,
  • die unstrukturierten Daten sind nur schwer zu durchsuchen,
  • die automatisierte Verarbeitung und Analyse unstrukturierter Daten ist stark eingeschränkt,
  • die unstrukturierten Daten lassen sich nicht in relationaler Form speichern,
  • Metadaten und Daten sind oft vermischt.

(ID:47361353)

Über den Autor