ParAlg, Kapitel 3.3

3.3 Valiants $O (\log \log n)$ -Merge (und warum es nicht ganz korrekt ist)

Leslie Valiant fand 1975 eine trickreiche Methode, zwei Arrays der Länge $n$ mit in $O (\log \log n)$ zu mergen. Der Algorithmus ist rekursiv und verwendet folgendes Lemma als Grundbaustein:

Lemma 3.3.1 Sei $B$ ein sortiertes Arrays mit $| B | = n$ und $x$ gegeben. Dann können wir $rank (x, B)$ mit $n$ Prozessoren in $O (1)$ Schritten berechnen.

Beweis von Lemma 3.3.1. Wir nehmen an, dass alle Listenelemente verschieden sind, und auch dass $x \notin B$ . Wir haben $n + 1$ Prozessoren $P_{0}, P_{1}, \dots, P_{n}$ . Prozessor $P_{j}$ überprüft, ob

\begin{array}{r} (1) & B [j] < x_{i} < B [j + 1] \end{array}

gilt, wobei wir $B [0] = - \infty$ und $B [n + 1] = \infty$ setzen. Falls es gilt, weiß $P_{j}$ , dass $rank (x, B) = j$ ist und schreibt diesen Wert in die Ergebniszelle. Da es immer genau ein $j$ gibt, das ( $1$ ) erfüllt, entstehen keine Schreibkonflikte. $◻$

Um nun $merge (A, B)$ zu berechnen, wählen wir jedes $\sqrt{m}$ -te Element aus $A$ und jedes $\sqrt{n}$ -te Element aus $B$ aus

und speichern sie in einem Array:

\begin{aligned} A^{'} & := [A [i \cdot \sqrt{m}] | 1 \leq i \leq \sqrt{m} - 1] \\ B^{'} & := [B [j \cdot \sqrt{n}] | 1 \leq j \leq \sqrt{n} - 1] . \end{aligned}

Mittels Lemma 3.3.1 bestimmen wir mit $| A^{'} | \cdot | B^{'} | = \sqrt{m n}$ Prozessoren in $O (1)$ Zeit den Rang $rank (A^{'} [i], B^{'})$ für jedes $1 \leq i \leq \sqrt{m} - 1$ . Für bestimmtes $i$ bezeichnen wir diesen Rang mit $j$ . Es gilt also

\begin{array}{r} B [j \sqrt{n}] < A [\sqrt{i}] < B [(j + 1) \sqrt{n}] . \end{array}

Bildlich gesprochen heißt dass, wir wissen, in welches "Teilstück" von $B^{'}$ das Element $x$ gehört.

In einem nächsten Schritt bestimmen wir, wieder mit Hilfe von Lemma 3.3.1, den Rang von $x = A [\sqrt{i}]$ in "seinem Interval" $B [j \sqrt{n} + 1, \dots, (j + 1) \sqrt{n} - 1]$ . Wir tun dies parallel für jedes $1 \leq i \leq \sqrt{m} - 1$ und brauchen dafür wieder $\sqrt{m n}$ Prozessoren und $O (1)$ Zeit. Mit $O (\sqrt{m n})$ Prozessoren und $O (1)$ Zeit haben wir also folgendes berechnet:

Wir kennen also $rank (x, B)$ für jedes $x \in A^{'}$ . So können wir $B$ in $\sqrt{m}$ Teilarrays $B_{1}, B_{2}, \dots, B_{\sqrt{m}}$ zerlegen und $A$ ebenso in $A_{1}, A_{2}, \dots, A_{\sqrt{m}}$ , so dass

\begin{array}{r} A_{i}, B_{i} \leq A [i \sqrt{m}] < A_{i + 1}, B_{i + 1} \end{array}

gilt. Mit der Schreibweise $U < x$ für eine Liste $U$ meinen wir, dass $z < x$ für jedes $z \in U$ gilt. Wir können nun also

\begin{array}{r} (2) & merge (A, B) = merge (A_{1}, B_{1}) \circ merge (A_{2}, B_{2}) \circ \dots \circ merge (A_{\sqrt{m} - 1}, B_{\sqrt{m} - 1}) \circ merge (A_{\sqrt{m}}, B_{\sqrt{m}}) \end{array}

wobei jedes $merge (A_{i}, B_{i})$ rekursiv gelöst wird.

Zeitkomplexität

Anfangs haben unsere Listen

A

und

B

die Längen

m

und

n

. Nach einem Rekursionsschritt haben wir

\sqrt{m}

Teilprobleme

(A_{i}, B_{i})

mit

| A_{i} | = \sqrt{m}

. Die Länge der "linken" Liste schrumpft also in

O (1)

Zeitschritten von

m

auf

\sqrt{m}

. Nach einem weiteren Rekursionsschritt haben die linken Listen Länge

\sqrt{\sqrt{m}}

und ganz allgemein nach

t

Rekursionsebenen Länge

\sqrt[2^{t}]{m}

. Für jedes Teilproblem

merge (A^{'}, B^{'})

gehen wir davon aus, dass uns

\sqrt{| A^{'} | \cdot | B^{'} |}

Prozessoren zur Verfügung stehen. Nach

T := \log \log m

Ebenen haben wir Listen der Länge

\begin{array}{r} m^{2^{- T}} = m^{2^{- \log \log m}} = m^{\frac{1}{\log m}} = {(2^{\log m})}^{\frac{1}{\log m}} = 2 \end{array}

erreicht. Das verbleibende Problem $merge (A^{'}, B^{'})$ für $| A | \leq 2$ können wir mit $\sqrt{| A^{'} | \cdot | B^{'} |}$ Prozessoren in $O (1)$ Schritten berechnen. Insgesamt benötigen wir also $O (T) = O (\log \log m)$ Schritte, um $merge (A, B)$ zu berechnen.

Anzahl der Prozessoren

Um die rechte Seite von ( $2$ ) zu berechnen, müssen wir $merge (A_{i}, B_{i})$ für jedes $1 \leq i \leq \sqrt{m} - 1$ berechnen. Dies tun wir rekursiv. Dafür statten wir das Teilproblem $merge (A_{i}, B_{i})$ mit $\sqrt{| A_{i} | \cdot | B_{i} |}$ Prozessoren aus. Sei $m_{i} := A_{i}$ und $n_{i} := B_{i}$ . Wir wissen, dass $m_{i} = \sqrt{m}$ (bis eventuell auf das letzte Array); $n_{i}$ allerdings kann bis zu $n$ Elemente erhalten; wir wissen nur, dass $\sum n_{i} = n$ ist. Wir können daher die benötigte Anzahl an Prozessoren mit der Cauchy-Schwarz-Ungleichung abschätzen:

\begin{array}{r} (3) & \sum_{i = 1}^{\sqrt{m} - 1} \sqrt{m_{i} n_{i}} \leq \sqrt{\sum_{i} m_{i}} \sqrt{\sum_{i} n_{i}} = \sqrt{m n} . \end{array}

Wenn $A$ und $B$ anfangs also jeweiles $n$ Elemente haben, so können wir mit $n$ Prozessoren verfahren und diese dann auch auf die Teilprobleme aufteilen - wir haben für jedes Teilproblem ausreichend viele Prozessoren.

Was wir unterschlagen haben

Die obige Laufzeitanalyse unterschlägt ein wichtiges Detail: die Ungleichung ( $3$ ) sagt uns zwar, dass wir unsere $\sqrt{m n}$ hinreichend viele sind, um jedes Teilproblem adäquat auszustatten, sagt uns aber nicht, welcher Prozessor auf welchem Teilproblem arbeiten muss. Betrachten wir den $l$ -ten unserer $\sqrt{m n}$ Prozessoren für $merge (A, B)$ . Soll er zugeordnet werden? Für die ersten $k$ Teilprobleme benötigen wir

\begin{array}{r} (4) & p_{k} := \sum_{i = 1}^{k} \sqrt{m_{i} n_{i}} \end{array}

Prozessoren. Prozessoren $1, \dots, p_{1}$ arbeiten also an $merge (A_{1}, B_{1})$ ; Prozessoren $p_{1} + 1, \dots, p_{2}$ an $merge (A_{2}, B_{2})$ und so weiter. Der Haken hierbei: bei ( $4$ ) handelt es sich um eine Präfixsumme. Und um die zu berechnen bräuchten wir selbst wieder Zeit $O (\log n)$ , wie wir in Kapitel 2.3 gelernt haben.

Valiant erkennt dieses Problem und unterscheidet zwischen Schritten, in denen tatsächlich Elemente aus der zu sortierenden Menge verglichen werden und "Overhead" und erwähnt, dass wachsender Overhead die Effizienzgewinne wieder zunichte macht. Auf der einen Seite ist das unbefriedigend, weil wir ja alle Berechnungsschritte zählen wollen, nicht nur die, in denen ein Vergleich ausgeführt wird; andererseits ist es vielleicht ganz interessant, zu untersuchen, was man alles machen kann, wenn man nur Vergleichsoperationen zählt.

Maximum in $O (\log \log n)$ parallelel Vergleichsschritten

Lassen wir uns also auf Valiants Gedankenexperiment ein, nur Schritte zu zählen, in denen wirklich Vergleichsoperationen durchgeführt werden. Wir nennen solche Schritte parallele Vergleichsschritte. Alle anderen Operationen, also Ergebnisse addieren, kopieren betrachten wir als kostenlos.

Theorem 3.3.2 Mit $n$ Prozessoren kann man in einem Array von $n$ Elementen in $O (\log \log n)$ parallelen Vergleichsschritten das Maximum bestimmen.

Dies ist also deutlich schneller als der traditionelle binärbaumartige Algorithmus, der so vorgeht wie in der K.o.-Runde einer Weltmeisterschaft und $O (\log n)$ Schritte braucht.

Beweis. Verallgemeinern wir kurz und nehmen an, wir haben $n$ Prozessoren und $n / k$ Elemente. Im Falle des Theorems wäre $k = 1$ , da wir ja $n$ Elemente haben. Wenn wir die $n / k$ Elemente in $\frac{n}{k l}$ Blöcke von je $l$ Elementen unterteilen und in jedem Block alle $(\binom{l}{2})$ paarweisen Vergleiche ausführen, dann sind das

\begin{array}{r} (\binom{l}{2}) \cdot \frac{n}{k l} = \frac{l - 1}{2 k} \cdot n \end{array}

Vergleichsoperationen. Für $l := 2 k + 1$ sind das $n$ Operationen, und wir können sie alle parallel mit unseren $n$ Prozessoren ausführen. Wir haben also nach einem Vergleichsschritt genug Information, um in jedem Block das Maximum zu bestimmen.

Achtung. Es braucht dann immer noch

O (\log l)

Schritte, um pro Block das Maximum zu ermitteln. Nur müssen wir hier nur die Ergebnisse bereits erfolgte Vergleichsoperationen betrachten und keine weiteren Vergleiche tätigen. Daher zählen wir diese Schritte nicht als Vergleichsschritte mit, sondern betrachten sie in diesem Zusammenhang als kostenlos.

Mit einem Vergleichsschritt haben wir also pro Block das Maximum ermittelt. Das globale Maximum aller $n / k$ Elemente muss nun eines der $\frac{n}{k (2 k + 1)}$ verbleibenden Kandidaten, der Blockmaxima sein. Wir fahren rekursiv fort, nun mit $k^{'} := k (2 k + 1)$ . Wie groß ist also die Menge der verbleibenden Kandidaten nach $i$ Vergleichsschritten? Wir definieren

\begin{aligned} k_{0} & := 1 \\ k_{i + 1} & := k_{i} \cdot (2 k_{i} + 1) \end{aligned}

Dann verbleiben nach $i$ Schritten nur noch $n / k_{i}$ Kandidaten. Wenn $n / k_{i} = O (1)$ erreicht ist (z.B. n/k_i = 1 oder 2), dann beenden wir die Rekursion und ermitteln das Maximum in $O (1)$ verbleibenden Vergleichsschritten. Um uns die Rechnung zu erleichtern, definieren wir

\begin{aligned} l_{0} & := 2 \\ l_{i + 1} & := l_{i}^{2} \end{aligned}

Per Induktion sieht man, das $k_{i} \geq l_{i}$ für alle $i \geq 2$ gilt und außerdem $l_{i} = 2^{2^{i}}$ . Es verbleiben nach $i \geq 2$ Schritten also

\begin{array}{r} \frac{n}{k_{i}} \leq \frac{n}{l_{i}} = \frac{n}{2^{2^{i}}} \end{array}

Kandidaten. Nach $T = \log \log n$ Schritten verbleibt noch $\frac{n}{2^{2^{T}}} = 1$ Kandidat und wir sind fertig (bzw. wir sind schon vor $T$ fertig, weil die Zahl der Kandidaten schon zuvor $1$ erreicht haben wird). $◻$

Übungsaufgabe 3.3.1 Wir sind stillschweigend davon ausgegangen, dass man die $n / k$ Elemente in $\frac{n}{k l}$ Blöcke der Größe $l$ aufteilen kann. Das geht natürlich nur, wenn $\frac{n}{k}$ durch $l$ teilbar ist (und selbst eine natürliche Zahl ist). Passen Sie die Analyse so an, dass Sie diesen Teilbarkeitsschwierigkeiten Rechnung tragen.

3.3 Valiants O(log⁡log⁡n)-Merge (und warum es nicht ganz korrekt ist)

Zeitkomplexität

Anzahl der Prozessoren

Was wir unterschlagen haben

Maximum in O(log⁡log⁡n) parallelel Vergleichsschritten

3.3 Valiants $O (\log \log n)$ -Merge (und warum es nicht ganz korrekt ist)

Maximum in $O (\log \log n)$ parallelel Vergleichsschritten