Der zentrale Grenzwertsatz (ZGS)

Wir diskutieren nun ein wichtiges Theorem in der Statistik. Es erklärt, wieso die Normalverteilung so oft auftritt.

Beginnen wir damit, Zufallsvariablen zu addieren.Gegeben sei ein Zufallsexperiment, und $n$ Zufallsvariablen $X_1, X_2, ..., X_n$ , wobei $n$ eine natürliche Zahl ist (also $n=1,2,3,...$ ). Bilde wir die Summe der $n$ Zufallsvariablen, so erhalten wir eine neue Zufallsvariable, die wir $S_n$ nennen. Es ist also

S_n=X_1+X_2+...+X_n

Genauer:

S_n(o)=X_1(o)+X_2(o)+...+X_n(o)

für alle möglichen Ausgänge $o$ des Experiments. Ebenfalls definieren wir die Zufallsvariable

\overline{X} = \frac{1}{n} S_n = \frac{1}{n}(X_1+X_2+...+X_n)

$\overline{X}$ wird oft Stichprobenmittelwert genannt wird. Wir werden bald sehen, wieso dieser Name passt. Beachte, dass $\overline{X}$ eigentlich ebenfalls von $n$ abhängt, wir schreiben aber nicht $\overline{X}_n$ .

Example 1

Ein fairer Würfel mit vier Seiten und den Zahlen $1,2,3,4$ wird $3$ geworfen. $X_1$ ist die Zahl im ersten Wurf, $X_2$ die Zahl im zweiten Wurf, und $X_3$ ist die Zahl im dritten Wurf.

Bestimme $S_3$ und $\overline{X}$ falls nach der Durchführung des Experiments die Zahlen $2, 4, 3$ erschienen sind. Was ist die Interpretation von $\overline{X}$ ?
Bestimme die Wahrscheinlichkeitsverteilungen von $S_3$ und $\overline{X}$ und skizziere sie. Skizziere ebenfalls die Wahrscheinlichkeitsverteilungen von $X_1, X_2$ und $X_3$ .
Bestimme die Mittelwerte von $X_1, X_2, X_3, S_n$ und $\overline{X}$ .

Solution

Wegen $X_1=2$ , $X_2=4$ und $X_3=3$ ist
$S_3 = 2+4+3 = 9$
und
$\overline{X} = \frac{1}{3}(2+4+3)=\frac{9}{3}=3$
Beachte, dass nach jeder Durchführung des Experiments (3-mal würfeln) der Wert von $S_3$ wie auch des Stichprobenmittelwerts $\overline{X}$ zufällig ändert. $\overline{X}$ berechnet jedes mal den Mittelwert der drei geworfenen Zahlen.
Wir müssen alle möglichen Werte von $S_3$ und $\overline{X}$ bestimmen, und die Wahrscheinlichkeiten, dass diese Werte angenommen werden. We can do this with a tree (see below):
$\begin{array}{llr} p(S_3=3) &=& \frac{1}{64} \\ p(S_3=4) &=& \frac{3}{64} \\ p(S_3=5) &=& \frac{6}{64} \\ p(S_3=6) &=& \frac{10}{64} \\ p(S_3=7) &=& \frac{12}{64} \\ p(S_3=8) &=& \frac{12}{64} \\ p(S_3=9) &=& \frac{10}{64} \\ p(S_3=10) &=& \frac{6}{64} \\ p(S_3=11) &=& \frac{3}{64} \\ p(S_3=12) &=& \frac{1}{64} \\ \end{array}$
und da $\overline{X}=\frac{1}{3}S_3$ , haben wir $p(S_3=3)=p(\overline{X}=\frac{3}{3})$ und so weiter:
$\begin{array}{llr} p\left(\overline{X}=\frac{3}{3}\right) &=& \frac{1}{64} \\ p\left(\overline{X}=\frac{4}{3}\right) &=& \frac{3}{64} \\ p\left(\overline{X}=\frac{5}{3}\right) &=& \frac{6}{64} \\ p\left(\overline{X}=\frac{6}{3}\right) &=& \frac{10}{64} \\ p\left(\overline{X}=\frac{7}{3}\right) &=& \frac{12}{64} \\ p\left(\overline{X}=\frac{8}{3}\right) &=& \frac{12}{64} \\ p\left(\overline{X}=\frac{9}{3}\right) &=& \frac{10}{64} \\ p\left(\overline{X}=\frac{10}{3}\right) &=& \frac{6}{64} \\ p\left(\overline{X}=\frac{11}{3}\right) &=& \frac{3}{64} \\ p\left(\overline{X}=\frac{12}{3}\right) &=& \frac{1}{64} \\ \end{array}$
Die Verteilungen von $S_3, \overline{X}$ und $X_1, X_2, X_3$ sind ebenfalls unten gezeigt. Beachte, dass $X_1, X_2$ und $X_3$ die gleichen Verteilungen haben.
Die Mittelwerte sind:
$\begin{array}{lll} \mu_{X_i} &=& 1\cdot 0.25+2\cdot 0.25 + 3\cdot 0.25+4\cdot 0.25\\ &=& 2.5\\ \mu_{S_n} &=& 3\cdot \frac{1}{64} + 4\cdot \frac{3}{64}+ ...+ 12\cdot \frac{1}{64}\\ &=&\frac{1}{64}(3+12+30+60+84+96+90+60+33+12)\\ &=& \frac{480}{68}\\ &=&7.5\\ \mu_{\overline{X}} &=& \frac{3}{3}\cdot \frac{1}{64} + \frac{4}{3}\cdot \frac{3}{64}+ ...+ \frac{12}{3}\cdot \frac{1}{64}\\ &=&\frac{1}{3}\cdot 7.5\\ &=& 2.5 \end{array}$

Beobachte, dass im obigen Beispiel die Zufallsvariablen $X_i$ ="geworfene Zahl im Versuch $i$ " eine konstante Verteilung ist, daher

p(X_i=1)=p(X_i=2)=p(X_i=3)=p(X_i=4)=0.25

Die Wahrscheinlichkeitsverteilung der Summe $S_3$ und des Stichprobenmittelwerts $\overline{X}$ hingegen ähneln Normalverteilungen (siehe Lösung im Beispiel oben). Dies ist kein Zufall. Die Verteilung einer Zufallsvariablen, welche durch die Summe von anderen Zufallsvariablen entsteht, ist meistens normalverteilt. Dies ist gerade der Zentrale Grenzwertsatz, den wir nun im Detail formulieren:

Theorem 1: Zentraler Grenzwertsatz (ZGS)

Gegeben seien $n$ kontinuierliche Zufallsvariablen $X_1, X_2, ..., X_n$ eines Experiments, welche die gleiche Wahrscheinlichkeitsdichtefunktion besitzen (und unabhängig voneinander sind). Alle $X_i$ haben somit den gleichen Mittelwert $\mu$ und die gleiche Standardabweichung $\sigma$ . Beachte, dass es keine Rolle spielt, ob die $X_i$ alle diskret oder alle kontinuierlich sind. Es gilt dann:

$S_n$ ist ungefähr normalverteilt mit Mittelwert $n\mu$ und Standardverteilung $\sqrt{n}\sigma$ , daher
$f_{S_n} \approx f_{n\mu, \sqrt{n}\sigma}$
$\overline{X}$ ist ungefähr normalverteilt mit Mittelwert $\mu$ und Standardverteilung $\frac{\sigma}{\sqrt{n}}$ , daher
$f_{\overline{X}} \approx f_{\mu, \frac{\sigma}{\sqrt{n}}}$
Je grösser $n$ , desto besser ist die Approximation. Für $n>30$ ist die Approximation normalerweise schon recht gut. Beachte auch, dass wir den Grenzwertsatz für kontinuierliche Zufallsvariablen formuliert haben. Er gilt aber auch für diskrete Zufallsvariablen (siehe Würfelbeispiel oben).

Der Beweis ist sehr technisch und übersteigt die Grenzen dieses Kurses bei weitem. Unten ist ein Beispiel von Zufallsvariablen $X_1, X_2, ... X_n$ , die alle die gleiche Wahrscheinlichkeitsdichteverteilung haben (dargestellt oben links im Diagramm). Die rote horizontale Linie zeigt den Mittelwert $\mu$ dieser Verteilungen an. Jedes weitere Bild zeigt die Wahrscheinlichkeitsdichteverteilung von $\overline{X}$ für grösser werdendes $n$ . Beobachte, wie das Stichprobenmittel schon bei $n=10$ recht gut normalverteilt ist.