Der zentrale Grenzwertsatz (ZGS)

Wir diskutieren nun ein wichtiges Theorem in der Statistik. Es erklärt, wieso die Normalverteilung so oft auftritt.

Beginnen wir damit, Zufallsvariablen zu addieren.Gegeben sei ein Zufallsexperiment, und nn Zufallsvariablen X1,X2,...,XnX_1, X_2, ..., X_n, wobei nn eine natürliche Zahl ist (also n=1,2,3,...n=1,2,3,...). Bilde wir die Summe der nn Zufallsvariablen, so erhalten wir eine neue Zufallsvariable, die wir SnS_n nennen. Es ist also

Sn=X1+X2+...+XnS_n=X_1+X_2+...+X_n

Genauer:

Sn(o)=X1(o)+X2(o)+...+Xn(o)S_n(o)=X_1(o)+X_2(o)+...+X_n(o)

für alle möglichen Ausgänge oo des Experiments. Ebenfalls definieren wir die Zufallsvariable

X=1nSn=1n(X1+X2+...+Xn)\overline{X} = \frac{1}{n} S_n = \frac{1}{n}(X_1+X_2+...+X_n)

X\overline{X} wird oft Stichprobenmittelwert genannt wird. Wir werden bald sehen, wieso dieser Name passt. Beachte, dass X\overline{X} eigentlich ebenfalls von nn abhängt, wir schreiben aber nicht Xn\overline{X}_n.

Example 1

Ein fairer Würfel mit vier Seiten und den Zahlen 1,2,3,41,2,3,4 wird 33 geworfen. X1X_1 ist die Zahl im ersten Wurf, X2X_2 die Zahl im zweiten Wurf, und X3X_3 ist die Zahl im dritten Wurf.

  1. Bestimme S3S_3 und X\overline{X} falls nach der Durchführung des Experiments die Zahlen 2,4,32, 4, 3 erschienen sind. Was ist die Interpretation von X\overline{X}?

  2. Bestimme die Wahrscheinlichkeitsverteilungen von S3S_3 und X\overline{X} und skizziere sie. Skizziere ebenfalls die Wahrscheinlichkeitsverteilungen von X1,X2X_1, X_2 und X3X_3.

  3. Bestimme die Mittelwerte von X1,X2,X3,SnX_1, X_2, X_3, S_n und X\overline{X}.

Solution
  1. Wegen X1=2X_1=2, X2=4X_2=4 und X3=3X_3=3 ist

    S3=2+4+3=9S_3 = 2+4+3 = 9

    und

    X=13(2+4+3)=93=3\overline{X} = \frac{1}{3}(2+4+3)=\frac{9}{3}=3

    Beachte, dass nach jeder Durchführung des Experiments (3-mal würfeln) der Wert von S3S_3 wie auch des Stichprobenmittelwerts X\overline{X} zufällig ändert. X\overline{X} berechnet jedes mal den Mittelwert der drei geworfenen Zahlen.

  2. Wir müssen alle möglichen Werte von S3S_3 und X\overline{X} bestimmen, und die Wahrscheinlichkeiten, dass diese Werte angenommen werden. We can do this with a tree (see below):

    p(S3=3)=164p(S3=4)=364p(S3=5)=664p(S3=6)=1064p(S3=7)=1264p(S3=8)=1264p(S3=9)=1064p(S3=10)=664p(S3=11)=364p(S3=12)=164\begin{array}{llr} p(S_3=3) &=& \frac{1}{64} \\ p(S_3=4) &=& \frac{3}{64} \\ p(S_3=5) &=& \frac{6}{64} \\ p(S_3=6) &=& \frac{10}{64} \\ p(S_3=7) &=& \frac{12}{64} \\ p(S_3=8) &=& \frac{12}{64} \\ p(S_3=9) &=& \frac{10}{64} \\ p(S_3=10) &=& \frac{6}{64} \\ p(S_3=11) &=& \frac{3}{64} \\ p(S_3=12) &=& \frac{1}{64} \\ \end{array}

    und da X=13S3\overline{X}=\frac{1}{3}S_3, haben wir p(S3=3)=p(X=33)p(S_3=3)=p(\overline{X}=\frac{3}{3}) und so weiter:

    p(X=33)=164p(X=43)=364p(X=53)=664p(X=63)=1064p(X=73)=1264p(X=83)=1264p(X=93)=1064p(X=103)=664p(X=113)=364p(X=123)=164\begin{array}{llr} p\left(\overline{X}=\frac{3}{3}\right) &=& \frac{1}{64} \\ p\left(\overline{X}=\frac{4}{3}\right) &=& \frac{3}{64} \\ p\left(\overline{X}=\frac{5}{3}\right) &=& \frac{6}{64} \\ p\left(\overline{X}=\frac{6}{3}\right) &=& \frac{10}{64} \\ p\left(\overline{X}=\frac{7}{3}\right) &=& \frac{12}{64} \\ p\left(\overline{X}=\frac{8}{3}\right) &=& \frac{12}{64} \\ p\left(\overline{X}=\frac{9}{3}\right) &=& \frac{10}{64} \\ p\left(\overline{X}=\frac{10}{3}\right) &=& \frac{6}{64} \\ p\left(\overline{X}=\frac{11}{3}\right) &=& \frac{3}{64} \\ p\left(\overline{X}=\frac{12}{3}\right) &=& \frac{1}{64} \\ \end{array}

    Die Verteilungen von S3,XS_3, \overline{X} und X1,X2,X3X_1, X_2, X_3 sind ebenfalls unten gezeigt. Beachte, dass X1,X2X_1, X_2 und X3X_3 die gleichen Verteilungen haben.

  3. Die Mittelwerte sind:

    μXi=10.25+20.25+30.25+40.25=2.5μSn=3164+4364+...+12164=164(3+12+30+60+84+96+90+60+33+12)=48068=7.5μX=33164+43364+...+123164=137.5=2.5\begin{array}{lll} \mu_{X_i} &=& 1\cdot 0.25+2\cdot 0.25 + 3\cdot 0.25+4\cdot 0.25\\ &=& 2.5\\ \mu_{S_n} &=& 3\cdot \frac{1}{64} + 4\cdot \frac{3}{64}+ ...+ 12\cdot \frac{1}{64}\\ &=&\frac{1}{64}(3+12+30+60+84+96+90+60+33+12)\\ &=& \frac{480}{68}\\ &=&7.5\\ \mu_{\overline{X}} &=& \frac{3}{3}\cdot \frac{1}{64} + \frac{4}{3}\cdot \frac{3}{64}+ ...+ \frac{12}{3}\cdot \frac{1}{64}\\ &=&\frac{1}{3}\cdot 7.5\\ &=& 2.5 \end{array}

Beobachte, dass im obigen Beispiel die Zufallsvariablen XiX_i="geworfene Zahl im Versuch ii" eine konstante Verteilung ist, daher

p(Xi=1)=p(Xi=2)=p(Xi=3)=p(Xi=4)=0.25p(X_i=1)=p(X_i=2)=p(X_i=3)=p(X_i=4)=0.25

Die Wahrscheinlichkeitsverteilung der Summe S3S_3 und des Stichprobenmittelwerts X\overline{X} hingegen ähneln Normalverteilungen (siehe Lösung im Beispiel oben). Dies ist kein Zufall. Die Verteilung einer Zufallsvariablen, welche durch die Summe von anderen Zufallsvariablen entsteht, ist meistens normalverteilt. Dies ist gerade der Zentrale Grenzwertsatz, den wir nun im Detail formulieren:

Theorem 1: Zentraler Grenzwertsatz (ZGS)

Gegeben seien nn kontinuierliche Zufallsvariablen X1,X2,...,XnX_1, X_2, ..., X_n eines Experiments, welche die gleiche Wahrscheinlichkeitsdichtefunktion besitzen (und unabhängig voneinander sind). Alle XiX_i haben somit den gleichen Mittelwert μ\mu und die gleiche Standardabweichung σ\sigma. Beachte, dass es keine Rolle spielt, ob die XiX_i alle diskret oder alle kontinuierlich sind. Es gilt dann:

  1. SnS_n ist ungefähr normalverteilt mit Mittelwert nμn\mu und Standardverteilung nσ\sqrt{n}\sigma, daher

    fSnfnμ,nσf_{S_n} \approx f_{n\mu, \sqrt{n}\sigma}
  2. X\overline{X} ist ungefähr normalverteilt mit Mittelwert μ\mu und Standardverteilung σn\frac{\sigma}{\sqrt{n}}, daher

    fXfμ,σnf_{\overline{X}} \approx f_{\mu, \frac{\sigma}{\sqrt{n}}}

    Je grösser nn, desto besser ist die Approximation. Für n>30n>30 ist die Approximation normalerweise schon recht gut. Beachte auch, dass wir den Grenzwertsatz für kontinuierliche Zufallsvariablen formuliert haben. Er gilt aber auch für diskrete Zufallsvariablen (siehe Würfelbeispiel oben).

Der Beweis ist sehr technisch und übersteigt die Grenzen dieses Kurses bei weitem. Unten ist ein Beispiel von Zufallsvariablen X1,X2,...XnX_1, X_2, ... X_n, die alle die gleiche Wahrscheinlichkeitsdichteverteilung haben (dargestellt oben links im Diagramm). Die rote horizontale Linie zeigt den Mittelwert μ\mu dieser Verteilungen an. Jedes weitere Bild zeigt die Wahrscheinlichkeitsdichteverteilung von X\overline{X} für grösser werdendes nn. Beobachte, wie das Stichprobenmittel schon bei n=10n=10 recht gut normalverteilt ist.