Normalverteilte Daten

Gegeben seien $n$ kontinuierliche Datenpunkte:

x_1, x_2, ..., x_n

Zum Beispiel, das Gewicht von $1000$ M&Ms:

\underbrace{34.1, 40.05, ....}_{n \text{ Zahlen}}

Theorem 1

Die Datenpunkte $x_1, ..., x_n$ sind normalverteilt, falls bei genügend vielen Datenpunkten $n$ und genügend kleiner Klassenbreite $\Delta x$ das Histogramm durch eine Normalverteilung $f_{\mu,\sigma}$ approximiert werden kann, wobei der Parameter $\mu$ gerade der Mittelwert der Daten ist, und der Parameter $\sigma$ die Standardabweichung, daher:

\begin{array}{lll} \mu &=&\frac{x_1+x_2+...+x_n}{n}\\ \sigma &=& \sqrt{\frac{(x_1-\mu)^2+...+(x_n-\mu)^2}{n-1}}\\ \end{array}

Beachte, dass wir nun bei der Standardabweichung durch $n-1$ teilen, und nicht mehr durch $n$ . Falls $n$ gross ist, ist der Unterschied des Resultats aber vernachlässigbar klein. Zum Beispiel, teile ich $100$ durch $n=10000$ oder durch $n=9999$ , die Zahl, die ich erhalte, ist fast gleich gross ( $0.01$ versus $0.010001$ ).

Example 1

Unten ist die Häufigkeitstabelle eines normalverteilten Datensatzes gegeben. Der Mittelwert der Daten ist $m=29.6$ , die Standardabweichung $s=7.6$ . Ebenfalls gezeigt ist das Histogramm und die Normalverteilung $f_{\mu,\sigma}$ .

Kontrolliere ob die Häufigkeitstabelle und das Histogramm übereinstimmen (vergleiche die Dichten).
Bestimme die Parameter $\mu$ und $\sigma$ der Normalverteilung.
Basierend auf der Normalverteilung, bestimme die (ungefähre) Wahrscheinlichkeit, dass ein zufällig gewählter Datenpunkt zwischen $22$ und $37.2$ liegt.
Basierend auf der Normalverteilung, bestimme ein (ungefähres) Intervall $[a,b]$ so, dass ein zufällig gewählter Datenpunkt mit Wahrscheinlichkeit $0.95$ in diesem Intervall liegt.
$\begin{array}{rcl|l} && & \text{Häufigkeit} \\\hline 0&-&2.5 & 0\\ 2.5&-&5 & 0\\ 5&-&7.5 &2\\ 7.5&-&10 &0\\ 10&-&12.5 &4\\ 12.5&-&15 &6\\ 15&-&17.5 &8\\ 17.5&-&20 &11\\ 20&-&22.5 &17\\ 22.5&-&25 &31\\ 25&-&27.5 &31\\ 27.5&-&30 &46\\ 30&-&32.5 &44\\ 32.5&-&35 &30\\ 35&-&37.5 &27\\ 37.5&-&40 &23\\ 40&-&42.5 &6\\ 42.5&-&45 &9\\ 45&-&47.5 &2\\ 47.5&-&50 &3\\ 50&-&52.5 &1\\ 52.5&-&55 &0\\ 55&-&57.5 &0\\ 57.5&-&60 &0\\ \end{array}$

Show

Lösung

Um die Dichte zu bekommen, müssen wir die Häufigkeiten durch $n$ teilen (relative Häufigkeit), und dann auch noch durch die Klassenbreite $\Delta x$ . Zählen wir die Häufigkeiten zusammen, so bekommen wir $n=301$ , und die Klassenbreite ist $\Delta x=2.5$ . Wir bekommen also die Dichten
$\begin{array}{rcl|c|l} && & \text{Häufigkeit} & \text{Dichte} & \\\hline 0&-&2.5 & 0 & 0\\ 2.5&-&5 & 0 & 0\\ 5&-&7.5 &2 & 0.00265781\\ 7.5&-&10 &0 & 0\\ 10&-&12.5 &4 & 0.00531561\\ 12.5&-&15 &6 & 0.00797342\\ 15&-&17.5 &8 & 0.0106312\\ 17.5&-&20 &11 & 0.0146179\\ 20&-&22.5 &17 & 0.0225914\\ 22.5&-&25 &31 & 0.041196\\ 25&-&27.5 &31 & 0.041196\\ 27.5&-&30 &46 & 0.0611296\\ 30&-&32.5 &44 & 0.0584718\\ 32.5&-&35 &30 & 0.0398671\\ 35&-&37.5 &27 & 0.0358804\\ 37.5&-&40 &23 & 0.0305648\\ 40&-&42.5 &6 & 0.00797342\\ 42.5&-&45 &9 & 0.0119601\\ 45&-&47.5 &2 & 0.00265781\\ 47.5&-&50 &3 & 0.00398671\\ 50&-&52.5 &1 & 0.0013289\\ 52.5&-&55 &0 & 0\\ 55&-&57.5 &0 & 0\\ 57.5&-&60 &0 & 0\\ \end{array}$
Ein Vergleich mit dem Histogramm zeigt, dass die Dichten übereinstimmen.
Die Parameter der Normalverteilung sind $\mu=\underline{29.6}$ (der Mittelwert der Daten) und $\sigma=\underline{7.6}$ (die Standardabweichung der Daten).
Es ist $22=\mu-\sigma$ und $37.2=\mu+\sigma$ . Die Wahrscheinlichkeit, dass ein Datenpunkt in diesem Intervall liegt ist die Fläche unter der Kurve von $\mu-\sigma$ und $\mu+\sigma$ , und das ist $p=\underline{0.683}$ (siehe vorhergehendes Kapitel). Dies ist nur ein ungefährer Wert, da die Normalverteilung das Histogramm nur approximiert.
Siehe vorhergehendes Kapitel: es ist $a=\mu-1.96\sigma=29.6-1.96\cdot 7.6=14.7$ und $b=\mu+1.96\sigma=29.6+1.96\cdot 7.6=\underline{44.5}$

Exercise 1

Aufgabe 2

Messungen desGewichts von $10\,000$ Melonen ergeben einen Mittelwert von $m=3.24 kg$ und eine Standardabweichung von $s=0.55 kg$ . Das Histogramm der Gewichte zeigt, dass die Gewichte ungefähr normalverteilt sind.

Finde die Parameter der Normalverteilung $f_{\mu,\sigma}$ .
wie viele Melonen, ungefähr, haben ein Gewicht grösser als $3.79 kg$ ?
Zwischen welchen Gewichten $a$ and $b$ liegen etwa $95\%$ der Melonen?

Show

Lösung 2

$f_{\mu,\sigma}$ hat die Parameter $\mu=\underline{3.24 kg}, \sigma=\underline{0.55 kg}$
Die Wahrscheinlichkeit, dass eine Melone grösser ist also $3.79$ ist die Fläche unter der Kurve von $f_{\mu,\sigma}$ nach $\infty$ . Wegen $3.79=\mu+\sigma$ , ist diese Fläche gerade $(1-0.683)/2=0.16$ . Da es $10\,000$ Melonen hat, sind also ungefähr $0.16\cdot 10\, 000=\underline{1600}$ Melonen schwerer als $3.79 kg$ .
$a=\mu-1.96\sigma=\underline{2.162 kg}, b=\mu+1.96\sigma = \underline{4.31 kg}$