Häufigkeitsverteilung von kontinuierlichen Daten

Wenn die Zufallsvariable $X$ kontinuierlich ist (daher Werte in einem Intervall produziert), und wir $m$ mal das Experiment wiederholen, bekommen wir einen kontinuierlichen Datensatz mit $m$ Datenpunkten. Der grosse Unterschied zum diskreten Datensatz ist der, dass wenn wir keine Häufigkeitstabelle aufstellen können, die alle möglichen Werte von $X$ auflistet (das haben wir im diskreten Fall getan mit dem Balkendiagramm). Ein anderes Problem ist, dass ein Datenpunkt im Datensatz kaum mehr als einmal vorkommen wird!

Es lohnt sich, diesen letzten Punkt zu verdeutlichen, und die Konsequenzen zu diskutieren. Wir machen das mit Hilfe eines kontinuierlichen Datensatzes, der sich aus der Messung des Gewichts von $100$ M&Ms (in g) ergibt:

Example 1

Wir stellen uns die Produktion der M&Ms als einen Zufallsprozess vor, der von der Maschine verursacht wird. Jedes M&M sieht ein bisschen anders aus, wiegt ein bisschen anders, und so weiter, aufgrund kleiner Unvollkommenheiten der Maschine und des Produktionsprozesses. Wir haben also das Zufallsexperiment "produziere ein M&M", und wir verwenden die kontinuierliche Zufallsvariable $X$ ="Gewicht des M&M", wobei die möglichen Werte (Gewichte) im Intervall $[48g, 60g]$ liegen. Wir wiederholen das Experiment $m=100$ Mal, um könnten zum Beispiel den folgenden Datensatz erhalten:

\underbrace{50.34, 60.2, 54.271, 50.33105, ...}_{100 \text{ Datenpunkte}}

Ein M&M im Datensatz hat das Gewicht $50.33105g$ . Es ist gut einzusehen, dass es höchst unwahrscheinlich ist, dass ein zweites M&M mit dem exakt gleichen Gewicht im Datensatz enthalten ist. Die Maschine müsste nochmals ein M&M mit genau diesem Gewicht produzieren, was sehr unwahrscheinlich ist). Das Bestimmen der relativen Häufigkeit aller M&M's mit genauen Gewicht $50.33105g$ wird also nichts dazu beitragen, Erkenntnisse über die Gewichtsverteilung des Datensatzes zu gewinnen. Bei einem grossen Datensatz ( $m$ gross) ist die relative Häufigkeit, den Punkt $50.33105g$ zu beobachten, im wesentlichen $0$ ( $\frac{1}{m} \approx 0$ ), und für einen unendlich grossen Datensatz ( $m \rightarrow \infty$ ) ist somit

p(X=50.33105)=0

Das obige Beispiel demonstriert zweierlei für eine kontinuierliche Zufallsvariable $X$ :

$p(X=x)=0$ für alle $x$
$p(X=x)=0$ bedeutet nicht, dass der Wert $x$ nie beobachtet werden kann. Das Gwicht $50.33105g$ im obigen Beispiel kam ja im Datensatz vor. Es bedeutet aber, dass eine beobachtete Grösse nie mehr als einmal vorkommen kann (mit an Sicherheit grenzender Wahrscheinlichkeit). Der Grund dafür ist, etwas salop formuliert, dass es unendlich viele mögliche Werte zwischen $a$ und $b$ gibt (überabzählbar viele). Selbst bei unendlich vielen Wiederholungen des Experiments werden wir daher jeden spezifischen Wert von $X$ höchstens einmal beobachten.

Zum Vergleich: Bei einer diskreten Zufallsvariable (z.B. Würfelwurf mit $X$ ="gewürfelte Zahl") gibt es nur endlich viele mögliche Werte von $X$ . Wiederholt man das Experiment oft genug, wird jeder mögliche Wert mehrfach vorkommen, und $p(X=1)>0$ .

Da im kontinuierlichen Fall es wenig Sinn macht, nach der Häufigkeit (oder Wahrscheinlichkeit) eines einzelen Punktes zu Fragen, machen wir das nächst Beste. Wir bestimmen, wie viele M&M's in einem kleinen Intervall Intervall liegen, z.B. von $48-50 g$ , von $50-52 g$ , von $52-54 g$ , und so weiter. Diese kleinen Intervalle werden Klassen (englisch bins) genannt. Die Breite des Intervalls wird als Klassenbreite (englisch bin-size) bezeichnet, und wird mit $\Delta x$ (also $\Delta x=2g$ ) bezeichnet.

Wenn wir also zählen, wie viele M&Ms in jede Klasse fallen, erhalten wir zum Beispiel die folgende Häufigkeitsverteilung der Daten:

\begin{array}{c|c|c|c} \text{Klasse } i & \text{Hfg.} & \text{rel Hfg. } y_i & \text{Dichte } d_i \\\hline 48-50 & 2 & 0.02 & 0.01\\ 50-52 & 11 & 0.11 & 0.055\\ 52-54 & 15 & 0.15 & 0.075\\ 54-56 & 39 & 0.39 & 0.195\\ 56-58 & 27 & 0.27 & 0.135\\ 58-60 & 6 & 0.06 & 0.03\\ \end{array}

Bei kontinuierlichen Daten sind wir in der Regel an der Dichte interessiert. Dies ist die die relative Häufigkeit geteilt durch die Klassenbreite (4. Spalte in der Tabelle oben):

\boxed{d_i = \frac{y_i}{\Delta x}}

Die grafische Darstellung der Dichten $d_i$ wird Histogramm genannt. In einem Histogramm werden die Klassen auf der vertikalen Achse aufgezeichnet, und über jeder Klasse wird ein Balken (mit gleicher Breite wie die Klasse, $\Delta x$ ) gezeichnet, dessen Höhe gerade der Dichte entspricht. Es gilt somit:

Summary 1

Die Fläche des Balkens, $d_i\cdot \Delta x$ , ist die relative Häufigkeit $y_i$ der Datenpunkte in der Klasse $i$ .

Die Fläche des Balkens $i$ approximiert also die Wahrscheinlichkeit, dass der beobachtete Wert $X$ in der Klasse $i$ liegt:

p(X\in \text{ Klasse $i$}) \approx d_i\cdot \Delta x

Je mehr Datenpunkte im Datensatz sind, desto besser ist diese Approximation.

Note 1

Die Wahl der Klassengrösse ist sehr wichtig. Wenn sie zu klein gewählt wird, gibt es viele Klassen, die keine Daten enthalten, und ein paar wenige, die vielleicht einen oder zwei Datenpunkte enthalten (siehe unten, links). Wird die Klassengrösse zu gross gewählt, gehen Details über die Verteilung der Datenpunkte verloren (siehe unten, rechts). Woher wissen wir also, welche Klassengrösse wir verwenden sollen? Es gibt Methoded, die ideal Klassengrösse zu bestimmen, wir gehen aber nicht darauf ein. Wir begnügen uns damit, die Klassengrösse durch Ausprobieren zu bestimmen, daher wir probieren verschiedene Klassengrössen aus, bis das resultierende Histogramm "irgendwo" zwischen diesen beiden Extremen liegt (siehe Histogramm oben).

Note 2

Warum wollen wir, dass die Fläche des Balkens die relative Häufigkeit oder Wahrscheinlichkeit repräsentiert? Dies scheint etwas willkürlich zu sein. Wir erinnern uns aber daran, dass Balkenflächen mit dem Integral zu tun haben, und genau das wird hier bezweckt. Wir können nun die Berechnung von Wahrscheinlichkeiten einer kontinuierlichen Zufallsvariable mit Integralrechnung verbinden. Dies wird im nächsten Kapitel diskutiert.

Exercise 1

Betrachte den folgenden kontinuierlichen Datensatz (Körpergrösse der Schüler in $cm$ ):

162.12, 174.3, 166.62, 180.432, 177.37, 169.22, 156.66, 164.32, 150.23, 183.19, 167.41, 189.77

Zeichne drei Histogramme mit den unten angegeben Klassengrössen. Beginne bei $150cm$ und ende bei $190cm$ .

$\Delta x=20$
$\Delta x=10$
$\Delta x=5$

Solution

$\Delta x=20cm$ :

\begin{array}{c|c|c|l} \text{Klasse } i &\text{Hfg} & \text{rel Hfg } y_i & \text{Dichte } d_i \\\hline 150-170 & 7 & 0.583 & 0.029\\ 170-190 & 5 & 0.417 & 0.021\\ \end{array}

$\Delta x=10cm$ :

\begin{array}{c|c|c|l} \text{Klasse } i & \text{Hfg} & \text{rel Hfg } y_i & \text{Dichte } d_i \\\hline 150-160 & 2 & 0.167 & 0.0167\\ 160-170 & 5 & 0.416 & 0.0416\\ 170-180 & 2 & 0.167 & 0.0167\\ 180-190 & 3 & 0.25 & 0.025\\ \end{array}

$\Delta x=5cm$ :

\begin{array}{c|c|c|l} \text{Klasse } i & \text{Hfg} & \text{rel Hfg } y_i & \text{Dichte } d_i \\\hline 150-155 & 1 & 0.083 & 0.0167\\ 155-160 & 1 & 0.083 & 0.0167\\ 160-165 & 2 & 0.167 & 0.034\\ 165-170 & 3 & 0.250 & 0.05\\ 170-175 & 1 & 0.083 & 0.0167\\ 175-180 & 1 & 0.083 & 0.0167\\ 180-185 & 2 & 0.167 & 0.034\\ 185-190 & 1 & 0.083 & 0.0167\\ \end{array}