1.4 Shannon-Entropie

Im Folgenden werden wir die Shannon-Entropie kennenlernen - ein Maß für die Unvorhersagbarkeit einer Wahrscheinlichkeitsverteilung.

Definition 1.4.1 Sei X eine endliche oder abzählbar unendliche Menge und P:X[0,1] eine Wahrscheinlichkeitsverteilung. Die Entropie von P ist

H(P):=xXP(x)log(1P(x)) .

Für die Definition nehmen wir an, dass P(x)>0 gilt für alle xX. Falls nicht, so könnten wir uns einfach auf den Träger supp(P) (enligsch Support) konzentrieren: die Menge X:={xX | P(x)>0}. Oder einfach bemerken, dass die Funktion pplog(1p) für p0 gegen 0 konvergiert und sie somit bei p=0 stetig fortzusetzen.

Beispiel 1: die Gleichverteilung. Wenn X={1,,n} ist und P die Gleichverteilung darauf, gilt also P(x)=1/n für jedes xX und H(P)=i=1n1nlog2(n)=log2(n).

Beispiel 2: Münzwürfe. Wir werfen eine faire Münze, bis Kopf erscheint. Sei X die Anzahl der benötigten Würfe.

Pr[X=k]=2k .

Dies definiert also eine Wahrscheinlichkeitsverteilung über N+ mit P(k)=2k. Es gilt

H(P)=k=1k2k .

Dies ist zufälligerweise auch E[X], die erwartete Anzahl der benötigten Münzwürfe. Wir können die Summe wie folgt evaluieren:

H(P)=k=1k2k=12k=1k2(k1)(via l:=k1)=12l=0(l+1)2l=12l=0l2l+12l=02l=12H(P)+122 ,

wobei die letzte Gleichheit folgt, weil die erste Summe das Gleiche ist wie H(P), nur mit Laufindex l statt k (beachten Sie, dass der Term für l=0 verschwindet) und weil die zweite Summe eine geometrische Reihe ist, deren Wert wir kennen. Wir haben also H(P)=12H(P)+1 erhalten und können dies zu H(P)=2 auflösen.

Das zweite Beispiel ist insofern interessant, als es eine Zufallsvariable behandelt, die natürliche Zahlen annimmt und bei Erwartungswert und Entropie gleich sind. Dies ist im Allgemeinen nicht der Fall (im ersten Beispiel ist E[X]=n+12) und H(X)=logn. Die Frage, wie groß die Entropie werden kann bei gegebenem Erwartungswert wird uns später noch beschäftigen.

Theorem 1.4.2 Sei X eine endliche Menge mit n:=|X| und P eine Wahrscheinlichkeitsverteilung auf X. Dann gilt H(P)logn.

Beweis. Wir nehmen an, dass P(x)>0 für alle xX gilt; andernfalls ersetzen wir X durch den Träger X:=supp und erhalten statt der oberen Schranke log|X| die noch bessere Schranke log|X|. Wir definieren eine Zufallsvariable W:XR wie folgt:

W(x):=1P(x) .

Die Entropie H(P) können wir nun schreiben als

H(P)=xXP(x)log(1P(x))=xXP(x)log(W(x))=ExP[logW(x)] .

Die Funktion wlogw ist konkav; wir können daher Jensens Ungleichung (Reference "theorem-jensen" not found. Go to put-all-in-one-page.html and read the instructions.) anwenden und erhalten

ExP[logW(x)]log(ExPW(x)) .

Wir müssen nun nur noch ExP[W(x)] ausrechnen:

ExP[W(x)]=xXP(x)W(x)=xXP(x)1P(x)=xX1=|X|=n .

Das Theorem ist somit bewiesen.

Übungsaufgabe 1.4.1 Beweisen Sie die folgende, allgemeinere Eigenschaft der Entropie: wenn P eine Wahrscheinlichkeitsverteilung auf X ist und YX eine endliche Teilmenge und wir eine neue Wahrscheinlichkeitsverteilung Q auf X definieren, indem wir alle Wahrscheinlichkeiten für yY durch ihren Durchschnitt ersetzen, also

Q(x):={yYP(y)|Y| für xYP(x) für xXY ,

dann gilt H(P)H(Q). In Worten: glätten erhöht die Entropie.