Häufigkeitsverteilung von kontinuierlichen Daten

Wenn die Zufallsvariable XX kontinuierlich ist (daher Werte in einem Intervall produziert), und wir mm mal das Experiment wiederholen, bekommen wir einen kontinuierlichen Datensatz mit mm Datenpunkten. Der grosse Unterschied zum diskreten Datensatz ist der, dass wenn wir keine Häufigkeitstabelle aufstellen können, die alle möglichen Werte von XX auflistet (das haben wir im diskreten Fall getan mit dem Balkendiagramm). Ein anderes Problem ist, dass ein Datenpunkt im Datensatz kaum mehr als einmal vorkommen wird!

Es lohnt sich, diesen letzten Punkt zu verdeutlichen, und die Konsequenzen zu diskutieren. Wir machen das mit Hilfe eines kontinuierlichen Datensatzes, der sich aus der Messung des Gewichts von 100100 M&Ms (in g) ergibt:

Example 1

Wir stellen uns die Produktion der M&Ms als einen Zufallsprozess vor, der von der Maschine verursacht wird. Jedes M&M sieht ein bisschen anders aus, wiegt ein bisschen anders, und so weiter, aufgrund kleiner Unvollkommenheiten der Maschine und des Produktionsprozesses. Wir haben also das Zufallsexperiment "produziere ein M&M", und wir verwenden die kontinuierliche Zufallsvariable XX="Gewicht des M&M", wobei die möglichen Werte (Gewichte) im Intervall [48g,60g][48g, 60g] liegen. Wir wiederholen das Experiment m=100m=100 Mal, um könnten zum Beispiel den folgenden Datensatz erhalten:

50.34,60.2,54.271,50.33105,...100 Datenpunkte\underbrace{50.34, 60.2, 54.271, 50.33105, ...}_{100 \text{ Datenpunkte}}

Ein M&M im Datensatz hat das Gewicht 50.33105g50.33105g. Es ist gut einzusehen, dass es höchst unwahrscheinlich ist, dass ein zweites M&M mit dem exakt gleichen Gewicht im Datensatz enthalten ist. Die Maschine müsste nochmals ein M&M mit genau diesem Gewicht produzieren, was sehr unwahrscheinlich ist). Das Bestimmen der relativen Häufigkeit aller M&M's mit genauen Gewicht 50.33105g50.33105g wird also nichts dazu beitragen, Erkenntnisse über die Gewichtsverteilung des Datensatzes zu gewinnen. Bei einem grossen Datensatz (mm gross) ist die relative Häufigkeit, den Punkt 50.33105g50.33105g zu beobachten, im wesentlichen 00 (1m0\frac{1}{m} \approx 0), und für einen unendlich grossen Datensatz (mm \rightarrow \infty) ist somit

p(X=50.33105)=0p(X=50.33105)=0

Das obige Beispiel demonstriert zweierlei für eine kontinuierliche Zufallsvariable XX:

  1. p(X=x)=0p(X=x)=0 für alle xx

  2. p(X=x)=0p(X=x)=0 bedeutet nicht, dass der Wert xx nie beobachtet werden kann. Das Gwicht 50.33105g50.33105g im obigen Beispiel kam ja im Datensatz vor. Es bedeutet aber, dass eine beobachtete Grösse nie mehr als einmal vorkommen kann (mit an Sicherheit grenzender Wahrscheinlichkeit). Der Grund dafür ist, etwas salop formuliert, dass es unendlich viele mögliche Werte zwischen aa und bb gibt (überabzählbar viele). Selbst bei unendlich vielen Wiederholungen des Experiments werden wir daher jeden spezifischen Wert von XX höchstens einmal beobachten.

    Zum Vergleich: Bei einer diskreten Zufallsvariable (z.B. Würfelwurf mit XX="gewürfelte Zahl") gibt es nur endlich viele mögliche Werte von XX. Wiederholt man das Experiment oft genug, wird jeder mögliche Wert mehrfach vorkommen, und p(X=1)>0p(X=1)>0.

Da im kontinuierlichen Fall es wenig Sinn macht, nach der Häufigkeit (oder Wahrscheinlichkeit) eines einzelen Punktes zu Fragen, machen wir das nächst Beste. Wir bestimmen, wie viele M&M's in einem kleinen Intervall Intervall liegen, z.B. von 4850g48-50 g, von 5052g50-52 g, von 5254g52-54 g, und so weiter. Diese kleinen Intervalle werden Klassen (englisch bins) genannt. Die Breite des Intervalls wird als Klassenbreite (englisch bin-size) bezeichnet, und wird mit Δx\Delta x (also Δx=2g\Delta x=2g) bezeichnet.

Wenn wir also zählen, wie viele M&Ms in jede Klasse fallen, erhalten wir zum Beispiel die folgende Häufigkeitsverteilung der Daten:

Klasse iHfg.rel Hfg. yiDichte di485020.020.015052110.110.0555254150.150.0755456390.390.1955658270.270.135586060.060.03\begin{array}{c|c|c|c} \text{Klasse } i & \text{Hfg.} & \text{rel Hfg. } y_i & \text{Dichte } d_i \\\hline 48-50 & 2 & 0.02 & 0.01\\ 50-52 & 11 & 0.11 & 0.055\\ 52-54 & 15 & 0.15 & 0.075\\ 54-56 & 39 & 0.39 & 0.195\\ 56-58 & 27 & 0.27 & 0.135\\ 58-60 & 6 & 0.06 & 0.03\\ \end{array}

Bei kontinuierlichen Daten sind wir in der Regel an der Dichte interessiert. Dies ist die die relative Häufigkeit geteilt durch die Klassenbreite (4. Spalte in der Tabelle oben):

di=yiΔx\boxed{d_i = \frac{y_i}{\Delta x}}

Die grafische Darstellung der Dichten did_i wird Histogramm genannt. In einem Histogramm werden die Klassen auf der vertikalen Achse aufgezeichnet, und über jeder Klasse wird ein Balken (mit gleicher Breite wie die Klasse, Δx\Delta x) gezeichnet, dessen Höhe gerade der Dichte entspricht. Es gilt somit:

Summary 1

Die Fläche des Balkens, diΔxd_i\cdot \Delta x, ist die relative Häufigkeit yiy_i der Datenpunkte in der Klasse ii.

Die Fläche des Balkens ii approximiert also die Wahrscheinlichkeit, dass der beobachtete Wert XX in der Klasse ii liegt:

p(X Klasse i)diΔxp(X\in \text{ Klasse $i$}) \approx d_i\cdot \Delta x

Je mehr Datenpunkte im Datensatz sind, desto besser ist diese Approximation.

Note 1

Die Wahl der Klassengrösse ist sehr wichtig. Wenn sie zu klein gewählt wird, gibt es viele Klassen, die keine Daten enthalten, und ein paar wenige, die vielleicht einen oder zwei Datenpunkte enthalten (siehe unten, links). Wird die Klassengrösse zu gross gewählt, gehen Details über die Verteilung der Datenpunkte verloren (siehe unten, rechts). Woher wissen wir also, welche Klassengrösse wir verwenden sollen? Es gibt Methoded, die ideal Klassengrösse zu bestimmen, wir gehen aber nicht darauf ein. Wir begnügen uns damit, die Klassengrösse durch Ausprobieren zu bestimmen, daher wir probieren verschiedene Klassengrössen aus, bis das resultierende Histogramm "irgendwo" zwischen diesen beiden Extremen liegt (siehe Histogramm oben).

Note 2

Warum wollen wir, dass die Fläche des Balkens die relative Häufigkeit oder Wahrscheinlichkeit repräsentiert? Dies scheint etwas willkürlich zu sein. Wir erinnern uns aber daran, dass Balkenflächen mit dem Integral zu tun haben, und genau das wird hier bezweckt. Wir können nun die Berechnung von Wahrscheinlichkeiten einer kontinuierlichen Zufallsvariable mit Integralrechnung verbinden. Dies wird im nächsten Kapitel diskutiert.

Exercise 1

Betrachte den folgenden kontinuierlichen Datensatz (Körpergrösse der Schüler in cmcm):

162.12,174.3,166.62,180.432,177.37,169.22,156.66,164.32,150.23,183.19,167.41,189.77162.12, 174.3, 166.62, 180.432, 177.37, 169.22, 156.66, 164.32, 150.23, 183.19, 167.41, 189.77

Zeichne drei Histogramme mit den unten angegeben Klassengrössen. Beginne bei 150cm150cm und ende bei 190cm190cm.

  1. Δx=20\Delta x=20

  2. Δx=10\Delta x=10

  3. Δx=5\Delta x=5

Solution

Δx=20cm\Delta x=20cm:

Klasse iHfgrel Hfg yiDichte di15017070.5830.02917019050.4170.021\begin{array}{c|c|c|l} \text{Klasse } i &\text{Hfg} & \text{rel Hfg } y_i & \text{Dichte } d_i \\\hline 150-170 & 7 & 0.583 & 0.029\\ 170-190 & 5 & 0.417 & 0.021\\ \end{array}

Δx=10cm\Delta x=10cm:

Klasse iHfgrel Hfg yiDichte di15016020.1670.016716017050.4160.041617018020.1670.016718019030.250.025\begin{array}{c|c|c|l} \text{Klasse } i & \text{Hfg} & \text{rel Hfg } y_i & \text{Dichte } d_i \\\hline 150-160 & 2 & 0.167 & 0.0167\\ 160-170 & 5 & 0.416 & 0.0416\\ 170-180 & 2 & 0.167 & 0.0167\\ 180-190 & 3 & 0.25 & 0.025\\ \end{array}

Δx=5cm\Delta x=5cm:

Klasse iHfgrel Hfg yiDichte di15015510.0830.016715516010.0830.016716016520.1670.03416517030.2500.0517017510.0830.016717518010.0830.016718018520.1670.03418519010.0830.0167\begin{array}{c|c|c|l} \text{Klasse } i & \text{Hfg} & \text{rel Hfg } y_i & \text{Dichte } d_i \\\hline 150-155 & 1 & 0.083 & 0.0167\\ 155-160 & 1 & 0.083 & 0.0167\\ 160-165 & 2 & 0.167 & 0.034\\ 165-170 & 3 & 0.250 & 0.05\\ 170-175 & 1 & 0.083 & 0.0167\\ 175-180 & 1 & 0.083 & 0.0167\\ 180-185 & 2 & 0.167 & 0.034\\ 185-190 & 1 & 0.083 & 0.0167\\ \end{array}