Was ist Datenkompression / Datenkomprimierung?

Verdichtete Daten Was ist Datenkompression / Datenkomprimierung?

08.10.2018 Von Diplom-Betriebswirtin Tina Billo 4 min Lesedauer

Anbieter zum Thema

Damit Daten nicht mehr Speicherplatz als nötig belegen und sich unabhängig von Umfang sowie Größe schnell austauschen lassen, werden sie komprimiert. Hierfür kommen abhängig vom Anwendungszweck und der Art der Daten unterschiedliche Kompressionsverfahren zum Einsatz.

Bei der Datenkompression werden Informationen verdichtet und damit in eine effizientere als die ursprüngliche Darstellung überführt.(Bild: / CC0) — Bei der Datenkompression werden Informationen verdichtet und damit in eine effizientere als die ursprüngliche Darstellung überführt.
(Bild: / CC0)

Speichermedien bieten immer mehr Kapazität, ebenso lassen sich Informationen über moderne feste und mobile Breitbandnetze schneller übertragen als je zuvor. Der auf diesen Gebieten permanent erzielte technische Fortschritt macht die Kompression von Daten jedoch keineswegs obsolet, da die Menge an erzeugten Informationen sowie die Größe der Dateien in einem weitaus höheren Taktschlag zunimmt.

Infolgedessen kommt heute jeder von uns tagtäglich mit Datenkompressionsverfahren in Berührung. Einerseits unbewusst – beispielsweise beim Besuch von Internetseiten, sobald wir an Online-Telefonkonferenzen teilnehmen, Videos abrufen oder das Fußball-Topspiel der Woche per Livestream verfolgen –, andererseits bewusst, indem wir Programme nutzen, um die Größe von Textdokumenten, Bildern, Präsentationen, Audio-Files und vielen weiteren Dateien so zu verringern, dass wir sie platzsparend archivieren und schnell übertragen können.

Einsparungspotenzial

Der Begriff Kompression stammt von dem lateinischen Wort comprimere ab, das „zusammendrücken“ bedeutet. Auf digitale Daten angewandt, steht er für deren Verdichtung. Um dies zu erreichen, werden gleiche oder ähnliche Informationen in verkürzter Form dargestellt.

Ergebnis sind Datensätze sowie Dateien von geringerem Umfang, die weniger Speicherplatz beanspruchen und sich zudem in kürzerer Zeit übertragen lassen. Dies schont Kapazität, CPU-Ressourcen und Bandbreite und ermöglicht ansonsten mit der Speicherung und dem Austausch von Daten verbundene Kosten zu senken.

Codierung und Decodierung

Grundsätzlich geht es somit um eine alternative, kompaktere Repräsentation der Daten, die per Codiergewinn realisiert wird. Hierfür kommen ein Codierer und ein Decodierer zum Einsatz, die mit einem Algorithmenpaar – dem Kompressions- und dem Dekompressionsalgorithmus – arbeiten.

Abhängig davon, ob die Originaldaten nach der Decodierung wieder vollständig rekonstruierbar sein müssen oder eine annähernde Wiederherstellung ausreicht, wird von verlustfreien oder verlustbehafteten Kompressionsverfahren gesprochen. Der Einteilung in diese beiden Hauptgruppen liegen zwei unterschiedliche Ansätze zugrunde: Die Entfernung von Redundanzen und von Irrelevanzen.

Redundanzreduktion

Verlustfreie Datenkompressionsverfahren basieren auf dem Prinzip der Redundanzreduktion. Diese folgt dem Grundgedanken, dass sich nur Daten verlustlos komprimieren lassen, die mehrfach vorhanden sind. Hierfür werden entweder in einer Datei wiederholt vorkommende Zeichen oder -kombinationen durch eine kürzere Darstellung ersetzt oder für deren Codierung eine Häufigkeitsverteilung herangezogen.

Wiederholungsbasierte Kompressionsverfahren

Zu den bekanntesten Vertretern von Datenkompressionsverfahren, die sich das Wiederholungsprinzip zu Nutze machen, zählen das Word Coding sowie das von Abraham Lempel und Jakob Ziv im Jahr 1977 erfundene Lempel-Ziv-Verfahren.

Das Word Coding eignet sich vor allem für die Komprimierung von Textdateien. Jedes enthaltene Wort wird in einer Liste inklusive eines ihm zugeordneten Werts gespeichert. Auf diese Weise lassen sich ganze Texte in Zahlencodes übersetzen.

Auch bei den LZ77- und LZ88-Verfahren - LZ steht jeweils für Lempel und Ziv, die Zahlen für das Erfindungsjahr - handelt es sich um wörterbuchbasierte Methoden, mit denen sich beliebige Dateien unabhängig von ihrer Struktur und Größe komprimieren lassen. Hierfür wird der eingelesene Inhalt als Wörterbuch genutzt und einzelne Zeichen ebenso wie längere Datensequenzen durch Zeiger auf die entsprechenden Einträgen ersetzt.

Weiterentwicklungen erfolgten mit dem Lempel-Ziv-Storer-Szymansiki- (LZSS) und dem Lempel-Ziv-Welch- (LZW) Algorithmus in den Jahren 1982 und 1984.

Häufigkeitsbasierte Kompressionsverfahren

Als eines der ältesten häufigkeitsbasierten Kompressionsverfahren lässt sich das 1838 von Samuel Finley Breese Morse für die telegrafische Nachrichtenübermittlung entwickelte Morsealphabet ansehen. Um die zu übertragenden Zeichen zu minimieren, wurden diese in Codes umgewandelt. Deren Wahl orientierte sich an der geschätzten Buchstaben-, Zahlen- und Sonderzeichenhäufigkeit in der englischen Sprache. So wurden häufig auftretende alphanumerischen Zeichen mit knappen Sequenzen, eher selten verwendeten hingegen mit längeren codiert.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Dieses Verfahren legte den Grundstein für die Idee der Entropiekodierung - die verlustfreie Kompression von Daten durch Ausnutzen der Auftretenswahrscheinlichkeit verschiedener Symbole-, die Claude Elwood Shannon – auch als Vater der Informationstheorie bezeichnet - im Jahr 1948 in seiner Arbeit „A Mathematical Theory of Communication“ erstmals formulierte. Diese bildet unter anderem den Unterbau für die präfixfreie Shannon-Fano-Kodierung, die als Vorläufer der 1952 vorgestellten Huffman-Kodierung gilt.

Ein weitere zu dieser Gruppe zählende und ebenfalls aus dieser Zeit stammende Kompressionstechnik ist die Lauflängenkodierung, kurz RLE (Run-Length Encoding) genannt. Der Algorithmus, mit dem sich längere Wiederholungen von Symbolen komprimieren lassen, wird meist ebenso wie LZ78 und LZW für die Präkodierung eingesetzt.

Irrelevanzreduktion

In einem bestimmten Zusammenhang unerhebliches oder bedeutungsloses wird als irrelevant bezeichnet. Genau hier setzt die Irrelevanzreduktion beziehungsweise -kompression an, da entbehrliche Daten und Informationen entfernt werden. Das bedeutet allerdings auch, dass sich die Originaldatei nicht vollständig in ihren Ursprungszustand zurückversetzen lassen – daher rührt auch die Bezeichnung „verlustbehaftete Datenkompression“ her.

Die Entscheidung, auf welche Daten beziehungsweise Informationen der Ausgangsdatei sich verzichten lässt, orientiert sich in erster Linie an der menschlichen Wahrnehmung. Daher werden verlustbehaftete Verfahren in der Regel für die Kompression von Bild-, Video- oder Audiodateien genutzt - teils auch in Kombination mit verlustfreien Methoden. Ein klassisches Beispiel ist das MP3-Format, bei dem für das menschliche Ohr kaum hörbare Frequenzmuster entfernt wurden.

Welches Datenkompressionsverfahren wann?

Geht es um die Speicherung von Daten führt kein Weg um verlustfreie Kompressionsverfahren herum, bei denen in vielen Fällen verschiedene Algorithmen kombiniert werden. So arbeiten beispielsweise einige klassische Packprogamme wie Winzip und Pkzip oder Lösungen, die ARJ- und LHA-Formate unterstützen, mit der LZ77-Komprimierung und der Huffmann-Codierung. Letztere kommt beispielsweise aber auch als Teilschritt bei der Komprimierung von JPEG-Dateien zum Einsatz.

Bei Bildern, Video, und Audiodateien findet hingegen meist die verlustbehaftete Datenkompression Anwendung. In der Regel lässt sich der Grad der Komprimierung – also des tolerierbaren Datenverlustes – einstellen. In jedem Fall liegt die erzielbare Kompressionsrate höher als bei den verlustfreien Methoden.

(ID:45093031)