Eine Funktion heißt konvex, wenn für
alle zwei Punkte auf dem Graphen von das Geradensegment
auf oder oberhalb des Graphen von liegt:
Was heißt das, etwas mathematischer ausgedrückt? Welche Koordinaten hat ein Punkt auf dem
Geradensegment ? Es gilt ja und für .
Jeder Punkt im Interval lässt sich schreiben als Konvexkombination von
und :
für zwei reelle Zahlen mit . Andere Autoren schreiben
hier statt gleich und sparen sich den zweiten Parameter; ich finde es aber
typographisch klarer, wenn wir und schreiben. Legen wir nun eine senkrechte
Gerade
durch . Diese schneidet den Graphen von in Punkt
und das Geradensegment im Punkt
Die Konvexität von besagt nun, dass der Punkt () auf oder oberhalb des
Punktes () liegen muss. Darüberhinaus muss gar nicht auf ganz definiert
sein.
Ein Intervall reicht aus. Somit können wir nun formal definieren:
Definition 1.3.1
Sei ein Interval (abgeschlossen, offen oder halb-offen). Eine Funktion heißt konvex wenn für alle und
mit gilt:
Beispiel. Die Funktion ist konvex.
Beweis. Seien und mit . Wir müssen zeigen, dass
Wenn wir die rechte Seite expandieren, ergibt dies
Wir bringen alles auf die linke Seite:
Nun müssen wir erkennen, dass und
analog , und somit bleibt zu zeigen:
Da sind, gilt auch . Wenn ist,
dann gilt die obige Ungleichung mit Gleichheit, da beide Seite verschwinden. Ansonsten ist
, wir
können durch dividieren und erhalten
Dies ist wahr, da die linke Seite gleich ist.
Oft kommt uns die Analysis zur Hilfe: wenn die Funktion zweimal
differenzierbar ist, dann ist sie konvex genau dann, wenn ist für alle .
Zum Beispiel sind und konvex.
Definition 1.3.2 Eine Funktion
heißt konkav, wenn konvex ist.
Wiederum gilt: wenn die Funktion zweimal differenzierbar ist, dann ist genau dann
konkav, wenn ist. Somit ist beispielsweise und konkav.
Werfen wir erneut einen Blick auf die zwei Zahlen mit , wie sie
in der Definition von Konvexität vorkommen. Man kann als
Wahrscheinlichkeitsverteilung
über der Menge betrachten. Der Ausdruck
also die rechte Seite von (), hat nun diese Interpretation:
wähle einen Wert zufällig nach Wahrscheinlichkeitsverteilung . Werte
dann an diesem Punkt aus; dies ergibt nun eine reelle Zufallsvariable, und
ihr Erwartungswert ist genau ().
Analog dazu hat die linke Seite von () folgende Interpretation:
wähle zufällig einen Wert in . Dies ist eine reelle Zufallsvariable und
hat einen Erwartungswert. Werte nun an diesem Erwartungswert aus.
Die Definition sagt nun grob: am Erwartungswert von ist höchstens
der Erwartungswert von . Jensens Ungleichung besagt nun, dass dies allgemein
für endliche Wahrscheinlichkeitsverteilungen gilt, nicht nur für solche über
zweielementigen Mengen.
Theorem 1.3.3 (Jensens Ungleichung). Sei
ein Interval in und sei
eine Zufallsvariable mit Wertebereich , die nur endlich viele
Werte annimmt.
Dann gilt
für jede konvexe Funktion .
Beweis.
Schreiben wir die etwas kurz angebundene Ungleichung () um. Seien
die Werte, die annehmen kann, und die
entsprechenden Wahrscheinlichkeiten. Wir müssen nun zeigen:
Wenn ist, dann ist und beide Seiten sind gleich, nämlich einfach .
Wenn ist, dann ist () genau die Definition von Konvexität, mit
und und und .
Wenn nun ist, dann verwenden wir Induktion über . Sei
Wir setzen .
Wegen Konvexität gilt
Wenn wir beide Seiten mit multiplizieren, erhalten wir
und somit
Die Zahlen definieren eine
Wahrscheinlichkeitsverteilung über
den Werten . Nach Induktion gilt also
Weiterhin gilt nach Definition von , dass
und somit ist die rechte Seite der letzten Ungleichung gleich
und das Theorem ist bewiesen.