Normalverteilte Daten

Gegeben seien nn kontinuierliche Datenpunkte:

x1,x2,...,xnx_1, x_2, ..., x_n

Zum Beispiel, das Gewicht von 10001000 M&Ms:

34.1,40.05,....n Zahlen\underbrace{34.1, 40.05, ....}_{n \text{ Zahlen}}
Theorem 1

Die Datenpunkte x1,...,xnx_1, ..., x_n sind normalverteilt, falls bei genügend vielen Datenpunkten nn und genügend kleiner Klassenbreite Δx\Delta x das Histogramm durch eine Normalverteilung fμ,σf_{\mu,\sigma} approximiert werden kann, wobei der Parameter μ\mu gerade der Mittelwert der Daten ist, und der Parameter σ\sigma die Standardabweichung, daher:

μ=x1+x2+...+xnnσ=(x1μ)2+...+(xnμ)2n1\begin{array}{lll} \mu &=&\frac{x_1+x_2+...+x_n}{n}\\ \sigma &=& \sqrt{\frac{(x_1-\mu)^2+...+(x_n-\mu)^2}{n-1}}\\ \end{array}

Beachte, dass wir nun bei der Standardabweichung durch n1n-1 teilen, und nicht mehr durch nn. Falls nn gross ist, ist der Unterschied des Resultats aber vernachlässigbar klein. Zum Beispiel, teile ich 100100 durch n=10000n=10000 oder durch n=9999n=9999, die Zahl, die ich erhalte, ist fast gleich gross (0.010.01 versus 0.0100010.010001).

Example 1

Unten ist die Häufigkeitstabelle eines normalverteilten Datensatzes gegeben. Der Mittelwert der Daten ist m=29.6m=29.6, die Standardabweichung s=7.6s=7.6. Ebenfalls gezeigt ist das Histogramm und die Normalverteilung fμ,σf_{\mu,\sigma}.

  1. Kontrolliere ob die Häufigkeitstabelle und das Histogramm übereinstimmen (vergleiche die Dichten).

  2. Bestimme die Parameter μ\mu und σ\sigma der Normalverteilung.

  3. Basierend auf der Normalverteilung, bestimme die (ungefähre) Wahrscheinlichkeit, dass ein zufällig gewählter Datenpunkt zwischen 2222 und 37.237.2 liegt.

  4. Basierend auf der Normalverteilung, bestimme ein (ungefähres) Intervall [a,b][a,b] so, dass ein zufällig gewählter Datenpunkt mit Wahrscheinlichkeit 0.950.95 in diesem Intervall liegt.

    Ha¨ufigkeit02.502.55057.527.51001012.5412.51561517.5817.520112022.51722.525312527.53127.530463032.54432.535303537.52737.540234042.5642.54594547.5247.55035052.5152.55505557.5057.5600\begin{array}{rcl|l} && & \text{Häufigkeit} \\\hline 0&-&2.5 & 0\\ 2.5&-&5 & 0\\ 5&-&7.5 &2\\ 7.5&-&10 &0\\ 10&-&12.5 &4\\ 12.5&-&15 &6\\ 15&-&17.5 &8\\ 17.5&-&20 &11\\ 20&-&22.5 &17\\ 22.5&-&25 &31\\ 25&-&27.5 &31\\ 27.5&-&30 &46\\ 30&-&32.5 &44\\ 32.5&-&35 &30\\ 35&-&37.5 &27\\ 37.5&-&40 &23\\ 40&-&42.5 &6\\ 42.5&-&45 &9\\ 45&-&47.5 &2\\ 47.5&-&50 &3\\ 50&-&52.5 &1\\ 52.5&-&55 &0\\ 55&-&57.5 &0\\ 57.5&-&60 &0\\ \end{array}
Show

Lösung

  1. Um die Dichte zu bekommen, müssen wir die Häufigkeiten durch nn teilen (relative Häufigkeit), und dann auch noch durch die Klassenbreite Δx\Delta x. Zählen wir die Häufigkeiten zusammen, so bekommen wir n=301n=301, und die Klassenbreite ist Δx=2.5\Delta x=2.5. Wir bekommen also die Dichten

    Ha¨ufigkeitDichte02.5002.550057.520.002657817.510001012.540.0053156112.51560.007973421517.580.010631217.520110.01461792022.5170.022591422.525310.0411962527.5310.04119627.530460.06112963032.5440.058471832.535300.03986713537.5270.035880437.540230.03056484042.560.0079734242.54590.01196014547.520.0026578147.55030.003986715052.510.001328952.555005557.50057.56000\begin{array}{rcl|c|l} && & \text{Häufigkeit} & \text{Dichte} & \\\hline 0&-&2.5 & 0 & 0\\ 2.5&-&5 & 0 & 0\\ 5&-&7.5 &2 & 0.00265781\\ 7.5&-&10 &0 & 0\\ 10&-&12.5 &4 & 0.00531561\\ 12.5&-&15 &6 & 0.00797342\\ 15&-&17.5 &8 & 0.0106312\\ 17.5&-&20 &11 & 0.0146179\\ 20&-&22.5 &17 & 0.0225914\\ 22.5&-&25 &31 & 0.041196\\ 25&-&27.5 &31 & 0.041196\\ 27.5&-&30 &46 & 0.0611296\\ 30&-&32.5 &44 & 0.0584718\\ 32.5&-&35 &30 & 0.0398671\\ 35&-&37.5 &27 & 0.0358804\\ 37.5&-&40 &23 & 0.0305648\\ 40&-&42.5 &6 & 0.00797342\\ 42.5&-&45 &9 & 0.0119601\\ 45&-&47.5 &2 & 0.00265781\\ 47.5&-&50 &3 & 0.00398671\\ 50&-&52.5 &1 & 0.0013289\\ 52.5&-&55 &0 & 0\\ 55&-&57.5 &0 & 0\\ 57.5&-&60 &0 & 0\\ \end{array}

    Ein Vergleich mit dem Histogramm zeigt, dass die Dichten übereinstimmen.

  2. Die Parameter der Normalverteilung sind μ=29.6\mu=\underline{29.6} (der Mittelwert der Daten) und σ=7.6\sigma=\underline{7.6} (die Standardabweichung der Daten).

  3. Es ist 22=μσ22=\mu-\sigma und 37.2=μ+σ37.2=\mu+\sigma. Die Wahrscheinlichkeit, dass ein Datenpunkt in diesem Intervall liegt ist die Fläche unter der Kurve von μσ\mu-\sigma undμ+σ\mu+\sigma, und das ist p=0.683p=\underline{0.683} (siehe vorhergehendes Kapitel). Dies ist nur ein ungefährer Wert, da die Normalverteilung das Histogramm nur approximiert.

  4. Siehe vorhergehendes Kapitel: es ist a=μ1.96σ=29.61.967.6=14.7a=\mu-1.96\sigma=29.6-1.96\cdot 7.6=14.7 und b=μ+1.96σ=29.6+1.967.6=44.5b=\mu+1.96\sigma=29.6+1.96\cdot 7.6=\underline{44.5}

Exercise 1

Aufgabe 2

Messungen desGewichts von 1000010\,000 Melonen ergeben einen Mittelwert von m=3.24kgm=3.24 kg und eine Standardabweichung von s=0.55kgs=0.55 kg. Das Histogramm der Gewichte zeigt, dass die Gewichte ungefähr normalverteilt sind.

  1. Finde die Parameter der Normalverteilung fμ,σf_{\mu,\sigma}.
  2. wie viele Melonen, ungefähr, haben ein Gewicht grösser als 3.79kg3.79 kg?
  3. Zwischen welchen Gewichten aa and bb liegen etwa 95%95\% der Melonen?
Show

Lösung 2

  1. fμ,σf_{\mu,\sigma} hat die Parameter μ=3.24kg,σ=0.55kg\mu=\underline{3.24 kg}, \sigma=\underline{0.55 kg}
  2. Die Wahrscheinlichkeit, dass eine Melone grösser ist also 3.793.79 ist die Fläche unter der Kurve von fμ,σf_{\mu,\sigma} nach \infty. Wegen 3.79=μ+σ3.79=\mu+\sigma, ist diese Fläche gerade (10.683)/2=0.16(1-0.683)/2=0.16. Da es 1000010\,000 Melonen hat, sind also ungefähr 0.1610000=16000.16\cdot 10\, 000=\underline{1600} Melonen schwerer als 3.79kg3.79 kg.
  3. a=μ1.96σ=2.162kg,b=μ+1.96σ=4.31kga=\mu-1.96\sigma=\underline{2.162 kg}, b=\mu+1.96\sigma = \underline{4.31 kg}