Histogramme und W'keit

Falls der Datensatz kontinuierlich ist, ist ein Balkendiagramm nicht hilfreich, da es kaum der Fall sein wird, dass ein Datenpunkt mehrmals erscheinen wird.

Zum Beispiel, wenn wir das Gewicht (in Gramm) von $100$ M&Ms genau bestimmen, könnten wir den folgenden Datensatz bekommen: erhalten wir etwa den folgen Datensatz:

50.34, 60.2, 54.271, 50.331, ...

Wir können uns die Produktion von M&Ms als Zufallsprozess vorstellen, wobei eine Maschine M&Ms mit Zufallsgewichten herstellt (in einem gewissen Intervall $I$ , zum Beispiel $I=[40g,70g]$ ). Es ist sicherlich der Fall, dass es kaum ein zweites M&M gibt mit dem genau gleichen Gewicht von $50.34g$ .

Ein besserer Ansatz besteht deshalb darin, Gewichtsklassen zu bilden (etwa von $48-50 g$ , von $50-52 g$ , von $52-54 g$ ), und so weiter, und dann zu bestimmen, wie viele M&Ms in jede Klasse fallen. Die Klassengrösse wird dabei mit $\Delta x$ abgekürzt, in unserem Fall ist also $\Delta x=2 g$ .

Wir bekommen also die folgende Häufigkeitsverteilung der Gewichte:

\begin{array}{c|c|c} \text{Klasse } i & x_i & \text{Häuf} & \text{rel Häuf } y_i & \text{Dichte } d_i \\\hline 48-50 & 49 & 2 & 0.02 & 0.01\\ 50-52 & 51 & 11 & 0.11 & 0.055\\ 52-54 & 53 & 15 & 0.15 & 0.075\\ 54-56 & 55 & 39 & 0.39 & 0.195\\ 56-58 & 57 & 27 & 0.27 & 0.135\\ 58-60 & 59 & 6 & 0.06 & 0.03\\ \end{array}

Für kontinuierliche Daten sind wir vor allem an der Dichte interessiert, was die relative Häufigkeit der Datenpunkte geteilt durch die Klassengrösse ist:

d_i = \frac{y_i}{\Delta x}

Beachte auch, dass $x_i$ nun der Mittelpunkt der Klasse repräsentiert. Die graphische Representation der Häufigkeitsverteilung wird mit Balken dargestellt (siehe unten). Dabei wird die Klassenmitte $x_i$ entlang der $x$ -Achse aufgetragen, und die Dichte $d_i$ entlan der $y$ -Achse. Dieses Diagramm wird Histogramm genannt.

y_i = d_i\cdot \Delta x

Die relative Häufigkeit ist somit durch die Fläche eines Balkens gegeben. Bei genügend vielen Datenpunkten entspricht die Fläche des Balkens $x_i$ also der Wahrscheinlichkeit, dass ein M&M mit dem Gewicht zwischen $x_i-\frac{\Delta x}{2}$ und $x_i+\frac{\Delta x}{2}$ liegt.

Exercise 1

Aufgabe 1

Bestimme für das obigen Histogramm die ungefähre Wahrscheinlichkeit, dass ein M&M ein Gewicht zwischen $50g$ und $54g$ besitzt.

Show

Lösung

Die ungefähre Wahrscheinlichkeit ist gerade die Summe der zwei Balkenflächen mit den Mittelpunkten $51$ und $53$ , also $0.11+0.15=\underline{0.26}$ .

Die Wahl der Klassenbreite $\Delta x$ ist wichtig. Wird sie zu klein gewählt, so werden die meisten Klassen nur sehr wenige Datenpunkte enthalten (siehe Figure unten, rechts). Ist die Klassenbreite zu gross, sehen wir nur noch grob, wie die Daten verteilt sind (unten, rechts). In der Praxis versuchen wir durch ausprobieren von verschiedenen Klassenbreiten ein Histogramm zu finden, das irgendwo zwischen diesen beiden Exremen liegt.

Je mehr Daten wir haben, desto kleiner kann die Klassenbreite gewählt werden, da dann genügend Daten in der Klasse sein werden, und der Fall links vermieden werden kann. Es gilt nun das folgende:

Theorem 1

Bei wirklich kleinen Klassenbreiten und genügend vielen Datenpunkten erhalten wir ein Histogramm, das ununterscheidbar von der Fläche unter einer geschmeidigen Kurve $f$ ist (siehe Bild unten). In diesem Fall ist dann die Wahrscheinlichkeit, dass ein Datenwert $x$ zwischen zwei beliebigen Werten $a$ und $b$ ist, gegeben durch die Fläche unter der Kurve von $a$ nach $b$ (siehe Bild unten):

p(a\leq x\leq b)=\text{Fläche unter Kurve $f$ von $a$ nach $b$}=A

Die Kurve $f$ wird Dichtefunktion der Verteilung genannt.

Exercise 2

Aufgabe 2

Wie gross ist die Gesamtfläche under einer Dichtefunktion $f$ ?
Es seien $a$ und $b$ zwei Werte, und $m$ liegt irgendwo zwischen $a$ und $b$ . Ist die folgende Aussage korrekt?

p(a\leq x \leq m)+p(m \leq x\leq b)=p(a\leq x\leq b)

Zeichne die Situation und argumentiere! 3. Das Gewicht von Gummibärchen habe eine Verteilung, welchen unten skizziert ist. Bestimme mit Hilfe der Skizze die (ungefähre) Wahrscheinlichkeit, dass das Gewicht eines Gummibärchens zwischen $60g$ und $67g$ liegt.

Show

Lösung

$1$ , da die Addition aller relativen Häufigkeiten (Balkenflächen) $1$ ergeben muss.
Ja, die Aussage stimmt, zeichne die Situation!
$p(60\leq x\leq 67)= A$ , wobei $A$ die Fläche unter der Kurve von $60$ bis $67$ ist (siehe Skizze unten). Diese können wir zum Beispiel durch ein Rechteck mit Breite $7$ und Höhe $0.05$ approximieren, es ist also $p(60\leq x\leq 67)\approx A\approx 7\cdot 0.05=\underline{0.35}$