Mobile-Menu

Definition Was ist Datenkompression?

Autor / Redakteur: Diplom-Betriebswirtin Tina Billo / Rainer Graefen

Damit Daten nicht mehr Speicherplatz als nötig belegen und sich unabhängig von Umfang sowie Größe schnell austauschen lassen, werden sie komprimiert. Hierfür kommen abhängig vom Anwendungszweck und der Art der Daten unterschiedliche Kompressionsverfahren zum Einsatz.

Anbieter zum Thema

Bei der Datenkompression werden Informationen verdichtet und damit in eine effizientere als die ursprüngliche Darstellung überführt.
Bei der Datenkompression werden Informationen verdichtet und damit in eine effizientere als die ursprüngliche Darstellung überführt.
(Bild: gemeinfrei - Luiz Jorge de Miranda Neto / Pixabay / CC0 )

Speichermedien bieten immer mehr Kapazität, ebenso lassen sich Informationen über moderne feste und mobile Breitbandnetze schneller übertragen als je zuvor. Der auf diesen Gebieten permanent erzielte technische Fortschritt macht die Kompression von Daten jedoch keineswegs obsolet, da die Menge an erzeugten Informationen sowie die Größe der Dateien in einem weitaus höheren Taktschlag zunimmt.

Infolgedessen kommt heute jeder von uns tagtäglich mit Datenkompressionsverfahren in Berührung. Einerseits unbewusst – beispielsweise beim Besuch von Internetseiten, sobald wir an Online-Telefonkonferenzen teilnehmen, Videos abrufen oder das Fußball-Topspiel der Woche per Livestream verfolgen. Andererseits bewusst, indem wir Programme nutzen, um die Größe von Textdokumenten, Bildern, Präsentationen, Audio-Files und vielen weiteren Dateien so zu verringern, dass wir sie platzsparend archivieren und schnell übertragen können.

Einsparungspotenzial

Der Begriff Kompression stammt von dem lateinischen Wort "comprimere" ab, das "zusammendrücken" bedeutet. Auf digitale Daten angewandt, steht er für deren Verdichtung. Um dies zu erreichen, werden gleiche oder ähnliche Informationen in verkürzter Form dargestellt.

Ergebnis sind Datensätze sowie Dateien von geringerem Umfang, die weniger Speicherplatz beanspruchen und sich zudem in kürzerer Zeit übertragen lassen. Dies schont Kapazität, CPU-Ressourcen und Bandbreite und ermöglicht ansonsten mit der Speicherung und dem Austausch von Daten verbundene Kosten zu senken.

Codierung und Decodierung

Grundsätzlich geht es somit um eine alternative, kompaktere Repräsentation der Daten, die per Codiergewinn realisiert wird. Hierfür kommen ein Codierer und ein Decodierer zum Einsatz, die mit einem Algorithmenpaar - dem Kompressions- und dem Dekompressionsalgorithmus - arbeiten.

Abhängig davon, ob die Originaldaten nach der Decodierung wieder vollständig rekonstruierbar sein müssen oder eine annähernde Wiederherstellung ausreicht, wird von verlustfreien oder verlustbehafteten Kompressionsverfahren gesprochen. Der Einteilung in diese beiden Hauptgruppen liegen zwei unterschiedliche Ansätze zugrunde: Die Entfernung von Redundanzen und von Irrelevanzen.

Redundanzreduktion

Verlustfreie Datenkompressionsverfahren basieren auf dem Prinzip der Redundanzreduktion. Diese folgt dem Grundgedanken, dass sich nur Daten verlustlos komprimieren lassen, die mehrfach vorhanden sind. Hierfür werden entweder in einer Datei wiederholt vorkommende Zeichen oder -kombinationen durch eine kürzere Darstellung ersetzt oder für deren Codierung eine Häufigkeitsverteilung herangezogen.

Wiederholungsbasierte Kompressionsverfahren

Zu den bekanntesten Vertretern von Datenkompressionsverfahren, die sich das Wiederholungsprinzip zu Nutze machen, zählen das Word Coding sowie das von Abraham Lempel und Jakob Ziv im Jahr 1977 erfundene Lempel-Ziv-Verfahren.

Das Word Coding eignet sich vor allem für die Komprimierung von Textdateien. Jedes enthaltene Wort wird in einer Liste inklusive eines ihm zugeordneten Werts gespeichert. Auf diese Weise lassen sich ganze Texte in Zahlencodes übersetzen.

Auch bei den LZ77- und LZ88-Verfahren - LZ steht jeweils für Lempel und Ziv, die Zahlen für das Erfindungsjahr - handelt es sich um wörterbuchbasierte Methoden, mit denen sich beliebige Dateien unabhängig von ihrer Struktur und Größe komprimieren lassen. Hierfür wird der eingelesene Inhalt als Wörterbuch genutzt und einzelne Zeichen ebenso wie längere Datensequenzen durch Zeiger auf die entsprechenden Einträgen ersetzt.

Weiterentwicklungen erfolgten mit dem Lempel-Ziv-Storer-Szymansiki- (LZSS) und dem Lempel-Ziv-Welch- (LZW) Algorithmus in den Jahren 1982 und 1984.

Häufigkeitsbasierte Kompressionsverfahren

Als eines der ältesten häufigkeitsbasierten Kompressionsverfahren lässt sich das 1838 von Samuel Finley Breese Morse für die telegrafische Nachrichtenübermittlung entwickelte Morsealphabet ansehen. Um die zu übertragenden Zeichen zu minimieren, wurden diese in Codes umgewandelt. Deren Wahl orientierte sich an der geschätzten Buchstaben-, Zahlen- und Sonderzeichenhäufigkeit in der englischen Sprache. So wurden häufig auftretende alphanumerischen Zeichen mit knappen Sequenzen, eher selten verwendeten hingegen mit längeren codiert.

Dieses Verfahren legte den Grundstein für die Idee der Entropiekodierung - die verlustfreie Kompression von Daten durch Ausnutzen der Auftretenswahrscheinlichkeit verschiedener Symbole-, die Claude Elwood Shannon - auch als Vater der Informationstheorie bezeichnet - im Jahr 1948 in seiner Arbeit "A Mathematical Theory of Communication" erstmals formulierte. Diese bildet unter anderem den Unterbau für die präfixfreie Shannon-Fano-Kodierung, die als Vorläufer der 1952 vorgestellten Huffman-Kodierung gilt.

Ein weitere zu dieser Gruppe zählende und ebenfalls aus dieser Zeit stammende Kompressionstechnik ist die Lauflängenkodierung, kurz RLE (Run-Length Encoding) genannt. Der Algorithmus, mit dem sich längere Wiederholungen von Symbolen komprimieren lassen, wird meist ebenso wie LZ78 und LZW für die Präkodierung eingesetzt.

Irrelevanzreduktion

In einem bestimmten Zusammenhang unerhebliches oder bedeutungsloses wird als irrelevant bezeichnet. Genau hier setzt die Irrelevanzreduktion beziehungsweise -kompression an, da entbehrliche Daten und Informationen entfernt werden. Das bedeutet allerdings auch, dass sich die Originaldatei nicht vollständig in ihren Ursprungszustand zurückversetzen lassen - daher rührt auch die Bezeichnung "verlustbehaftete Datenkompression" her.

Die Entscheidung, auf welche Daten beziehungsweise Informationen der Ausgangsdatei sich verzichten lässt, orientiert sich in erster Linie an der menschlichen Wahrnehmung. Daher werden verlustbehaftete Verfahren in der Regel für die Kompression von Bild-, Video- oder Audiodateien genutzt - teils auch in Kombination mit verlustfreien Methoden. Ein klassisches Beispiel ist das MP3-Format, bei dem für das menschliche Ohr kaum hörbare Frequenzmuster entfernt wurden.

Welches Datenkompressionsverfahren wann?

Geht es um die Speicherung von Daten führt kein Weg um verlustfreie Kompressionsverfahren herum, bei denen in vielen Fällen verschiedene Algorithmen kombiniert werden. So arbeiten beispielsweise einige klassische Packprogamme wie Winzip und Pkzip oder Lösungen, die ARJ- und LHA-Formate unterstützen, mit der LZ77-Komprimierung und der Huffmann-Codierung. Letztere kommt beispielsweise aber auch als Teilschritt bei der Komprimierung von JPEG-Dateien zum Einsatz.

Bei Bildern, Video, und Audiodateien findet hingegen meist die verlustbehaftete Datenkompression Anwendung. In der Regel lässt sich der Grad der Komprimierung - also des tolerierbaren Datenverlustes - einstellen. In jedem Fall liegt die erzielbare Kompressionsrate höher als bei den verlustfreien Methoden.

(ID:45093031)