Histogramme und W'keit

Falls der Datensatz kontinuierlich ist, ist ein Balkendiagramm nicht hilfreich, da es kaum der Fall sein wird, dass ein Datenpunkt mehrmals erscheinen wird.

Zum Beispiel, wenn wir das Gewicht (in Gramm) von 100100 M&Ms genau bestimmen, könnten wir den folgenden Datensatz bekommen: erhalten wir etwa den folgen Datensatz:

50.34,60.2,54.271,50.331,...50.34, 60.2, 54.271, 50.331, ...

Wir können uns die Produktion von M&Ms als Zufallsprozess vorstellen, wobei eine Maschine M&Ms mit Zufallsgewichten herstellt (in einem gewissen Intervall II, zum Beispiel I=[40g,70g]I=[40g,70g]). Es ist sicherlich der Fall, dass es kaum ein zweites M&M gibt mit dem genau gleichen Gewicht von 50.34g50.34g.

Ein besserer Ansatz besteht deshalb darin, Gewichtsklassen zu bilden (etwa von 4850g48-50 g, von 5052g50-52 g, von 5254g52-54 g), und so weiter, und dann zu bestimmen, wie viele M&Ms in jede Klasse fallen. Die Klassengrösse wird dabei mit Δx\Delta x abgekürzt, in unserem Fall ist also Δx=2g\Delta x=2 g.

Wir bekommen also die folgende Häufigkeitsverteilung der Gewichte:

Klasse ixiHa¨ufrel Ha¨uf yiDichte di48504920.020.01505251110.110.055525453150.150.075545655390.390.195565857270.270.13558605960.060.03\begin{array}{c|c|c} \text{Klasse } i & x_i & \text{Häuf} & \text{rel Häuf } y_i & \text{Dichte } d_i \\\hline 48-50 & 49 & 2 & 0.02 & 0.01\\ 50-52 & 51 & 11 & 0.11 & 0.055\\ 52-54 & 53 & 15 & 0.15 & 0.075\\ 54-56 & 55 & 39 & 0.39 & 0.195\\ 56-58 & 57 & 27 & 0.27 & 0.135\\ 58-60 & 59 & 6 & 0.06 & 0.03\\ \end{array}

Für kontinuierliche Daten sind wir vor allem an der Dichte interessiert, was die relative Häufigkeit der Datenpunkte geteilt durch die Klassengrösse ist:

di=yiΔxd_i = \frac{y_i}{\Delta x}

Beachte auch, dass xix_i nun der Mittelpunkt der Klasse repräsentiert. Die graphische Representation der Häufigkeitsverteilung wird mit Balken dargestellt (siehe unten). Dabei wird die Klassenmitte xix_i entlang der xx-Achse aufgetragen, und die Dichte did_i entlan der yy-Achse. Dieses Diagramm wird Histogramm genannt.

yi=diΔxy_i = d_i\cdot \Delta x

Die relative Häufigkeit ist somit durch die Fläche eines Balkens gegeben. Bei genügend vielen Datenpunkten entspricht die Fläche des Balkens xix_i also der Wahrscheinlichkeit, dass ein M&M mit dem Gewicht zwischen xiΔx2x_i-\frac{\Delta x}{2} und xi+Δx2x_i+\frac{\Delta x}{2} liegt.

Exercise 1

Aufgabe 1

Bestimme für das obigen Histogramm die ungefähre Wahrscheinlichkeit, dass ein M&M ein Gewicht zwischen 50g50g und 54g54g besitzt.

Show

Lösung

Die ungefähre Wahrscheinlichkeit ist gerade die Summe der zwei Balkenflächen mit den Mittelpunkten 5151 und 5353, also 0.11+0.15=0.260.11+0.15=\underline{0.26}.

Die Wahl der Klassenbreite Δx\Delta x ist wichtig. Wird sie zu klein gewählt, so werden die meisten Klassen nur sehr wenige Datenpunkte enthalten (siehe Figure unten, rechts). Ist die Klassenbreite zu gross, sehen wir nur noch grob, wie die Daten verteilt sind (unten, rechts). In der Praxis versuchen wir durch ausprobieren von verschiedenen Klassenbreiten ein Histogramm zu finden, das irgendwo zwischen diesen beiden Exremen liegt.

Je mehr Daten wir haben, desto kleiner kann die Klassenbreite gewählt werden, da dann genügend Daten in der Klasse sein werden, und der Fall links vermieden werden kann. Es gilt nun das folgende:

Theorem 1

Bei wirklich kleinen Klassenbreiten und genügend vielen Datenpunkten erhalten wir ein Histogramm, das ununterscheidbar von der Fläche unter einer geschmeidigen Kurve ff ist (siehe Bild unten). In diesem Fall ist dann die Wahrscheinlichkeit, dass ein Datenwert xx zwischen zwei beliebigen Werten aa und bb ist, gegeben durch die Fläche unter der Kurve von aa nach bb (siehe Bild unten):

p(axb)=Fla¨che unter Kurve f von a nach b=Ap(a\leq x\leq b)=\text{Fläche unter Kurve $f$ von $a$ nach $b$}=A

Die Kurve ff wird Dichtefunktion der Verteilung genannt.

Exercise 2

Aufgabe 2

  1. Wie gross ist die Gesamtfläche under einer Dichtefunktion ff?
  2. Es seien aa und bb zwei Werte, und mm liegt irgendwo zwischen aa und bb. Ist die folgende Aussage korrekt?
p(axm)+p(mxb)=p(axb)p(a\leq x \leq m)+p(m \leq x\leq b)=p(a\leq x\leq b)

Zeichne die Situation und argumentiere! 3. Das Gewicht von Gummibärchen habe eine Verteilung, welchen unten skizziert ist. Bestimme mit Hilfe der Skizze die (ungefähre) Wahrscheinlichkeit, dass das Gewicht eines Gummibärchens zwischen 60g60g und 67g67g liegt.

Show

Lösung

  1. 11, da die Addition aller relativen Häufigkeiten (Balkenflächen) 11 ergeben muss.
  2. Ja, die Aussage stimmt, zeichne die Situation!
  3. p(60x67)=Ap(60\leq x\leq 67)= A, wobei AA die Fläche unter der Kurve von 6060 bis 6767 ist (siehe Skizze unten). Diese können wir zum Beispiel durch ein Rechteck mit Breite 77 und Höhe 0.050.05 approximieren, es ist also p(60x67)A70.05=0.35p(60\leq x\leq 67)\approx A\approx 7\cdot 0.05=\underline{0.35}