1.5 Shannons Source-Coding-Theorem
Zur Wiederholdung: wir betrachten eine endliche Menge und eine Codierung von über dem
Alphabet .
Diese Codierung ist eine Funktion , und sie heißt
präfixfrei
wenn
für alle mit gilt:
Das Codewort darf also kein Präfix von sein, und insbesondere muss
gelten. Wenn mit einer Wahrscheinlichkeitsverteilung ausgestattet
ist,
dann können wir über die erwartete Codelänge sprechen:
Theorem 1.5.1
(Source-Coding-Theorem).
Sei eine endliche Menge und eine Wahrscheinlichkeitsverteilung über .
- Untere Schranke: wenn ein präfixfreier
Code ist, dann gilt
-
Obere Schranke: es gibt einen präfixfreien Code mit
für jedes , und somit auch
Beweis (untere Schranke). Sei ein Code.
Wir definieren
Nach Teil von Reference "theorem-kraft-ineq" not found. Go to put-all-in-one-page.html and read the instructions. (der
Kraft-McMillan-Ungleichung) gilt . Wir rechnen nun
Es bleibt zu zeigen, dass der zweite Term dieser Summe nicht negativ ist.
Wir rechnen nun weiter mit der linken Seite der letzten Ungleichung. Wenn wir
die Zufallsvariable wählen - also und
setzen,
dann ist auch eine Zufallsvariable, die endlich viele Werte annimmt (höchstens so viele
wie selbst, also maximal viele). Darüberhinaus ist auch immer definiert:
nimmt ja nur jene Werte an, für die gilt.
Und für jedes gilt ja auch . Somit ist
definiert
und größer als , und so ist auch auch definiert. Die linke Seite der obigen
Ungleichung ist also
Nun ist eine Zufallsvariable, die nur endlich viele Werte annimmt, und ist eine
konkave Funktion. Wir wenden Jensens Ungleichung Reference "theorem-jensen" not found. Go to put-all-in-one-page.html and read the instructions.
an:
Was ist , der Erwartungswert von über der Wahrscheinlichkeitsverteilung ?
Diese Summe ist, nach der Kraft-McMillan-Ungleichung (Reference "theorem-kraft-ineq" not found. Go to put-all-in-one-page.html and read the instructions.)
höchstens , und somit ist ihr Logarithmus höchstens .
Anmerkung. Ganz allgemein gilt, mit der gleichen Rechnung wie gerade eben: wenn
und
zwei Wahrscheinlichkeitsverteilungen über einer Menge sind und ist für alle
mit ,
dann ist
definiert und nichtnegativ. Der Ausdruck () ist als
Kullback-Leibler-Divergenz bekannt und wird auch mit abgekürzt.
Im Lichte der obigen Rechnung hat folgende Interpretation (die mit einer
Prise Salz zu nehmen ist): wenn wir
davon ausgehen, dass die Elemente der Verteilung folgen und einen
präfixfreien Code konstruieren, der für optimal wäre, die wirklich
Wahrscheinlichkeitsverteilung
jedoch ist, dann ist der Preis, den wir für diese Fehleinschätzung bezahlen
müssen:
im Schnitt ist jedes Codewort um länger, als es in einer für optimalen
Verteilung der Fall wäre.
Beweis (obere Schranke). Der Einfachheit halber
sei und . Wir
setzen . Der Ausdruck
ist also , abgerundet auf die nächstkleinere Zweierpotenz.
So würden wir beispielsweise auf abrunden und auf . Es gilt
Wir können also den zweiten Teil von Reference "theorem-kraft-ineq" not found. Go to put-all-in-one-page.html and read the instructions., der
Kraft-McMillan-Ungleichung anwenden und erhalten einen präfixfreien Code
mit . Somit
ist () gezeigt. Für die erwartete Codelänge gilt nun
Somit ist Teil 2 gezeigt.
Der definierte Code für weißt individuelle Optimalität auf: es
gilt für jedes . Diese individuelle Optimalität
gilt aber im Allgemeinen nicht für das Ergebnis des Huffman-Algorithmus:
Übungsaufgabe 1.5.1
Sei und . Definieren Sie eine Wahrscheinlichkeitsverteilung
über mit , so dass möglichst groß wird;
der Code ist hier der vom Huffman-Algorithmus erzeugte optimale Code.
Zeigen Sie, dass deutlich größer werden kann als .