1.3 Jensens Ungleichung

Jensens Ungleichung

Eine Funktion f:RR heißt konvex, wenn für alle zwei Punkte p,q auf dem Graphen von f das Geradensegment [pq] auf oder oberhalb des Graphen von f liegt:

Was heißt das, etwas mathematischer ausgedrückt? Welche Koordinaten hat ein Punkt auf dem Geradensegment [pq]? Es gilt ja p=(x,f(x)) und q=(y,f(y)) für x,yR. Jeder Punkt im Interval [x,y] lässt sich schreiben als Konvexkombination von x und y:

αx+βy

für zwei reelle Zahlen α,β0 mit α+β=1. Andere Autoren schreiben hier statt β gleich 1α und sparen sich den zweiten Parameter; ich finde es aber typographisch klarer, wenn wir α und β schreiben. Legen wir nun eine senkrechte Gerade durch (αx+βy,0). Diese schneidet den Graphen von f in Punkt

(1)(αx+βy,f(αx+βy))

und das Geradensegment [pq] im Punkt

(2)αp+βq=(αx+βy,αf(x)+βf(y)) .

Die Konvexität von f besagt nun, dass der Punkt (2) auf oder oberhalb des Punktes (1) liegen muss. Darüberhinaus muss f gar nicht auf ganz R definiert sein. Ein Intervall reicht aus. Somit können wir nun formal definieren:

Definition 1.3.1 Sei IR ein Interval (abgeschlossen, offen oder halb-offen). Eine Funktion f:IR heißt konvex wenn für alle x,yI und α,β0 mit α+β=1 gilt:

(3)f(αx+βy)αf(x)+βf(y) .

Beispiel. Die Funktion f:xx2 ist konvex.

Beweis. Seien x,yR und α,β0 mit α+β=1. Wir müssen zeigen, dass

αx2+βy2(αx+βy)2 . Wenn wir die rechte Seite expandieren, ergibt dies αx2+βy2α2x2+2αβxy+β2y2 .

Wir bringen alles auf die linke Seite:

(αα2)x22αβxy+(ββ2)y20 .

Nun müssen wir erkennen, dass αα2=α(1α)=αβ und analog ββ2=αβ, und somit bleibt zu zeigen:

αβx22αβxy+αβy20 .

Da α,β0 sind, gilt auch αβ0. Wenn αβ= ist, dann gilt die obige Ungleichung mit Gleichheit, da beide Seite verschwinden. Ansonsten ist αβ>0, wir können durch αβ dividieren und erhalten

x22xy+y20 .

Dies ist wahr, da die linke Seite gleich (x+y)2 ist.

Oft kommt uns die Analysis zur Hilfe: wenn die Funktion f:IR zweimal differenzierbar ist, dann ist sie konvex genau dann, wenn f(x)>0 ist für alle xI. Zum Beispiel sind 2x und ex konvex.

Definition 1.3.2 Eine Funktion f heißt konkav, wenn f konvex ist.

Wiederum gilt: wenn die Funktion f zweimal differenzierbar ist, dann ist f genau dann konkav, wenn f(x)0 ist. Somit ist beispielsweise ln(x) und log2(x) konkav.

Werfen wir erneut einen Blick auf die zwei Zahlen α,β0 mit α+β=1, wie sie in der Definition von Konvexität vorkommen. Man kann α,β als Wahrscheinlichkeitsverteilung P über der Menge {x,y} betrachten. Der Ausdruck

αf(x)+βf(y) ,

also die rechte Seite von (3), hat nun diese Interpretation: wähle einen Wert Z{x,y} zufällig nach Wahrscheinlichkeitsverteilung P. Werte dann f an diesem Punkt aus; dies ergibt nun eine reelle Zufallsvariable, und ihr Erwartungswert ist genau (3). Analog dazu hat die linke Seite von (3) folgende Interpretation: wähle zufällig einen Wert in Z{x,y}. Dies ist eine reelle Zufallsvariable und hat einen Erwartungswert. Werte nun f an diesem Erwartungswert aus. Die Definition sagt nun grob: f am Erwartungswert von Z ist höchstens der Erwartungswert von f(Z). Jensens Ungleichung besagt nun, dass dies allgemein für endliche Wahrscheinlichkeitsverteilungen gilt, nicht nur für solche über zweielementigen Mengen.

Theorem 1.3.3 (Jensens Ungleichung). Sei I ein Interval in R und sei X:ΩI eine Zufallsvariable mit Wertebereich I, die nur endlich viele Werte annimmt. Dann gilt

(4)E[f(X)]f(E[X]) .

für jede konvexe Funktion f:IR.

Beweis. Schreiben wir die etwas kurz angebundene Ungleichung (4) um. Seien x1,,xnI die Werte, die X annehmen kann, und p1,,pn die entsprechenden Wahrscheinlichkeiten. Wir müssen nun zeigen:

(5)i=1npif(xi)f(i=1npixi) .

Wenn n=1 ist, dann ist p1=1 und beide Seiten sind gleich, nämlich einfach f(x1). Wenn n=2 ist, dann ist (5) genau die Definition von Konvexität, mit x=x1 und y=x2 und α=p1 und β=p2.

Wenn nun n3 ist, dann verwenden wir Induktion über n. Sei

q1:=p1p1+p2q2:=p2p1+p2 .

Wir setzen y:=q1x1+q2x2. Wegen Konvexität gilt

q1f(x1)+q2f(x2)f(y) .

Wenn wir beide Seiten mit p1+p2 multiplizieren, erhalten wir

p1f(x1)+p2f(x2)(p1+p2)f(y)

und somit

i=1npif(xi)(p1+p2)f(y)+i=3npif(xi) .

Die n1 Zahlen p1+p2,p3,p4,,pn definieren eine Wahrscheinlichkeitsverteilung über den n1 Werten {z,x3,x4,,xn}. Nach Induktion gilt also

(p1+p2)f(y)+i=3npif(xi)f((p1+p2)z+p3x3++pnxn) .

Weiterhin gilt nach Definition von z, dass (p1+p2)z=(p1+p2)(q1x1+q2x2)=p1x1+p2x2 und somit ist die rechte Seite der letzten Ungleichung gleich f(p1x1+p2x2+p3x3++pnxn) und das Theorem ist bewiesen.