Massendaten Was sind Big Data?
Anbieter zum Thema
Eine genaue Angabe, ab welcher Datenmenge man von Big Data spricht, existiert nicht. In der Regel handelt es sich bei Big Data um Massendaten im mehrstelligen Terabyte- oder Petabyte-Bereich und darüber hinaus. Unabhängig von einer bestimmten Menge an Daten hat sich für Big Data diese Definition durchgesetzt: Als Big Data werden Datenmengen bezeichnet, die so groß und komplex sind, dass herkömmliche Technologien und Methoden der Datenverarbeitung und Datenanalyse nicht mehr anwendbar sind.

Der englische Begriff Big Data bedeutet wörtlich „Massendaten“ und soll verdeutlichen, dass es um die Verarbeitung besonders großer Datenmengen geht. Häufig wird diskutiert, ab welcher Menge an Daten man von Big Data spricht. Es existiert allerdings kein fester Schwellenwert, ab dem die Bezeichnung Big Data verwendet wird. In der Regel handelt es sich um Massendaten im mehrstelligen Terabyte-Bereich oder Petabyte-Bereich und darüber hinaus.
Durch den technischen Fortschritt steigt die Menge der im Big-Data-Umfeld zu verarbeitenden Daten zudem kontinuierlich an. Unabhängig von der Menge an Daten hat sich die Definition durchgesetzt, dass für Big Data herkömmliche Technologien und Methoden der Datenverarbeitung und Datenanalyse nicht mehr angewandt werden können. Die Datenmengen sind zu groß, zu komplex, zu wenig strukturiert oder zu kurzlebig, um sie auf klassischem Weg zu verwalten und auszuwerten. Daten passen nicht mehr auf einzelne Festplatten und sind mit herkömmlichen Technologien nicht in der geforderten Zeit prozessierbar. Daher kommen Verfahren zum Einsatz, die die Daten auf mehrere Systeme verteilen, Lasten ausgleichen und Prozesse parallelisieren.
Big-Data-Systeme arbeiten häufig parallel mit vielen Prozessoren oder Servern. Merkmale solcher Systeme sind die Verarbeitung vieler Datensätze in kurzer Zeit, schnelle Importvorgänge großer Datenmengen, Abfragen in Echtzeit, schnelle Bewältigung komplexer Abfragebefehle, Ausführung vieler paralleler Abfragen und die Verarbeitung strukturierter, unstrukturierter oder semi-strukturierter Daten und verschiedener Datenformate.
Die fünf „V“ von BigData
In vielen Definitionen ist die Rede von den fünf „V“, durch die Big Data gekennzeichnet ist. Diese fünf „V“ sind:
- Volume,
- Variety,
- Velocity,
- Veracity,
- Value.
Volume steht für die große Menge an Daten. Variety bedeutet „Vielfalt“ und beschreibt die verschiedenen Datenformate (Texte, Bilder, Videos), in denen die Daten vorliegen, und die unterschiedlichen Datenstrukturen wie strukturierte, unstrukturierte oder semi-strukturierte Daten. Velocity („Geschwindigkeit“) soll zum Ausdruck bringen, dass Daten mit hoher Geschwindigkeit generiert werden und schnell oder in Echtzeit zu verarbeiten sind. Veracity („Wahrhaftigkeit“) steht für die Richtigkeit und Qualität der Daten. Die Daten stammen aus vielen verschiedenen Quellen und werden qualitativ aufbereitet. Der Begriff Value („Wert“) schließlich bedeutet, dass die von einer Organisation oder einem Unternehmen zu verarbeitenden und zu analysierenden riesigen Datenmengen zu einem Mehrwert führen.
(ID:48752237)