Das Gesetz der grossen Zahlen

Was besagt das Gesetz der grossen Zahlen? Wikipedia sagt:

In ihrer einfachsten Form besagen diese Sätze, dass sich die relative Häufigkeit eines Zufallsergebnisses in der Regel um die theoretische Wahrscheinlichkeit eines Zufallsergebnisses stabilisiert, wenn das zugrundeliegende Zufallsexperiment immer wieder unter denselben Voraussetzungen durchgeführt wird. Die häufig verwendete Formulierung, dass sich die relative Häufigkeit der Wahrscheinlichkeit "immer mehr annähert" ist dabei irreführend, da es auch bei einer großen Anzahl von Wiederholungen Ausreisser geben kann. Die Annäherung ist also nicht monoton.

Das wollen wir uns in diesem Abschnitt genauer anschauen.

Die Tschebyscheff'sche Ungleichung

Wir brauchen für die folgende Argumentation die sogenannte Tschebyscheff-Ungleichung:

Theorem 1: Tschebyscheff'sche Ungleichung

Sei XX eine Zufallsvariable mit Erwartungswert

μ:=E(X)\mu := \operatorname{E}(X)

und endlicher Varianz

σ2:=Var(X).\sigma^2 := \operatorname{Var}(X).

Dann gilt für alle reellen Zahlen k>0k>0:

P(Xμk)σ2k2.P(|X-\mu|\geq k) \leq \frac{\sigma^2}{k^2}.

Durch den Übergang zum komplementären Ereignis erhält man

P(Xμ<k)1σ2k2.P(|X-\mu|< k) \geq 1-\frac{\sigma^2}{k^2}.
Proof

Als kleine Begründung (handwaving) betrachten wir für den diskreten Fall Instanzierungen xi,iIx_i, i\in I mit Wahrscheinlichkeit pip_i. Was bedeutet für eine beliebige Zahl kk die Aussage P(Xμk)P(|X-\mu| \geq k)? Wir interessieren uns also für die Wahrscheinlichkeit, dass die Abweichung der Zufallsvariablen XX vom Erwartungswert μ\mu grösser als kk ist. Nennen wir die Menge aller iIi\in I, so dass die Instanzierung der Zufallsvariablen grösser als kk ist

K:={iIxiμk}.K:=\{i\in I\mid |{x_i-\mu}| \geq k\}.

Wir lösen uns vom Betrag durch (xiμ)2k2(x_i-\mu)^2 \geq k^2, was äquivalent zu

(xiμ)2k21\frac{(x_i-\mu)^2}{k^2} \geq 1

ist. Jetzt schätzen wir ab:

P(Xμk)=iKpiiKpi(xiμ)2k2iIpi(xiμ)2k2=1k2iIpi(xiμ)2=1k2σ2\begin{align*} P(|{X-\mu}|\geq k) &= \sum_{i\in K}p_i\leq\sum_{i\in K}p_i\cdot\frac{(x_i-\mu)^2}{k^2}\leq\sum_{i\in I}p_i\cdot\frac{(x_i-\mu)^2}{k^2}\\ &= \frac{1}{k^2}\cdot\sum_{i\in I}p_i(x_i-\mu)^2 = \frac{1}{k^2}\cdot\sigma^2 \end{align*}

Hieraus folgt unmittelbar

P(Xμ<k)1σ2k2.P(|{X-\mu}|<k) \geq 1 - \frac{\sigma^2}{k^2}.

Schwaches Gesetz der grossen Zahlen

Es gilt für eine Folge von i.i.d. (independent and identically distributed) Zufallsvariablen X1X_1, X2X_2, .... XnX_n mit Erwartungswert μ\mu und Varianz σ2\sigma^2 für ihr arithmetisches Mittel (Mittelwert)

Xˉ=X1++Xnn.\bar{X}=\frac{X_1+\dots+X_n}{n}.

Beachte, dass Xˉ\bar{X} selbst wiederum eine Zufallsvariable ist. Es ist natürlich E(Xˉ)=μ\operatorname{E}(\bar{X})=\mu und für die Varianz gilt Var(Xˉ)=σ2n\operatorname{Var}(\bar{X})=\frac{\sigma^2}{n} - da für unabhängige Zufallsvariablen die Varianz additiv ist und wie Var(nX)=n2Var(X)\operatorname{Var}(nX) = n^2\operatorname{Var}(X) skaliert wird. Somit folgt mit der Tschebyscheff'schen Ungleichung

P(Xˉμ<k)1σ2nk2.P(|{\bar{X}-\mu}|<k) \geq 1-\frac{\frac{\sigma^2}{n}}{k^2}.

was für nn\to\infty zu

limnP(Xˉμ<k)1=1\lim_{n\to\infty}P(|{\bar{X}-\mu}|<k) \geq 1=1

wird. Das heisst: für eine grösser werdende Anzahl von i.i.d. Zufallsvariablen geht die Wahrscheinlichkeit, dass die Abweichung ihres Mittelwerts vom Erwartungswert kleiner als eine beliebige positive Zahl kk ist, gegen 100%100\%.

Konvergenz gegen die Wahrscheinlichkeit

Beispielsweise gilt für Bernoulli-verteilte Zufallsvariablen XiX_i mit Erfolgswahrscheinlichkeit pp, dass ihr Mittelwert (relative Häufigkeit) gegen die Wahrscheinlichkeit konvergiert (im Sinne von statistischer Konvergenz):

Xˉ=X1++Xnnnp.\bar{X} = \frac{X_1+\dots+X_n}{n} \stackrel{n\to\infty}{\longrightarrow} p.

Missinterpretation des Gesetzes

Das Gesetz der grossen Zahlen besagt nicht, dass man so was wie ausgleichende Gerechtigkeit hat, dass sich die Ergebnisse mit der Zeit ausgleichen: Man nehme eine faire Münze, werfe sie ein paar Mal und notiere wie oft Kopf gezeigt wird; das Verhältnis Kopf zu Anzahl Versuche geht mit grösserer Wahrscheinlichkeit gegen 0.50.5, wenn man die Anzahl der Würfe erhöht. Es wird aber nicht gesagt, dass sich Anzahl Kopf und Anzahl Zahl mit häufigerem Werfen sich "ausgleichen". Betrachte dazu die unten stehende Tabelle:

Würfe 1010 100100 10001\,000 ... 100000100\,000
"Kopf" 44 4343 440440 ... 4700047\,000
rel. Häufigkeit 0.40.4 0.430.43 0.440.44 ... 0.470.47
"Zahl" 66 5757 560560 ... 5300053\,000
Δ\Delta 22 1414 120120 ... 60006\,000