Histogramme

Bei stetigen Merkmalen (oder bei einer grossen Anzahl von möglichen Merkmalsausprägungen) ist die Berechung der absoluten und relativen Häufigkeiten einer Merkmalsausprägung kaum sinnvoll. Nehmen wir zum Beispiel die Körpergrösse eines Schülers oder einer Schülerin an der FMS als Merkmal. Mögliche Merkmalsausprägungen, also die möglichen Körpergrössen, sind alle Zahlen zwischen, sagen wir, $150cm$ und $200cm$ . Also $150.1cm$ ist dabei, wie auch $180.65cm$ , usw.

150cm, ..., 150.05cm, ... 150.1cm, ..., 180.65cm,... 200cm

Nun werden aber nur ganz wenige Personen and der FMS genau die gleiche Körpergrösse von $150.1cm$ besitzen. Die absolute Häufigkeit ist vielleicht $1$ oder $2$ . Und viele andere Körpergrössen, wie $150.11cm$ , oder $150.23cm$ werden möglicherweise gar nie vorkommen. Bei etwa $200$ Personen an der FMS ist die relative Häufigkeit dann für alle Grössen entweder $0$ oder sehr klein ( $1/200=0.005$ oder $2/200=0.01$ ).

Es macht daher mehr Sinn, die Merkmalsausbildungen in Klassen zu gruppieren, und die absolute und relative Häufigkeiten für diese Klassen zu bestimmen. Eine mögliche Klassenbildung für das Beispiel oben könnte zum Beispiel sein:

150cm \text{ bis } 175cm

175cm \text{ bis } 200cm

200cm \text{ bis } 225cm

Wir bestimmen dann die absolute und relative Häufigkeiten jeder Klasse. Wir bestimmen dann also nicht, wie viele Personen genau die Körpergrösse $150.1cm$ besitzen, sondern wie viele Personen eine Körpergrösse zwischen $150cm$ und $175cm$ besitzen, was wieder mehr Sinn ergibt.

Die Breite der Klasse, im Beispiel $25cm$ , wird Klassenbreite genannt. Im Prinzip müssen nicht alle Klassen die gleiche Breite haben, wird aber typischerweise so gemacht. Die Grösse der Klassenbreite spielt eine grosse Rolle. Wird sie zu klein gewählt (etwa $0.5cm$ ), sind wir wieder beim Problem von ganz oben

Warning

Beachte, dass Klassen zum Teil die gleichen Ränder haben. In welche Klasse gehört dann aber zum Beispiel der Datenpunkt $175cm$ ? Wir vereinbaren hier, dass wir ihn in die untere Klasse stecken, also in die Klasse

150cm \text{ bis } 175cm

Der Datenpunkt $200cm$ stecken wir demnach in die Klasse

175cm \text{ bis } 200cm

Hier ist ein konkretes Beispiel:

Example 1

Die Körpergrössen von Schülern und Schülerinnen einer Klasse wurde wiefolgt gemessen (in cm):

162, 163, 169, 169, 173, 163, 186, 173, 172, 159, 166, 161, 164, 162, 170, 180, 163

Beginnend mit $159cm$ , berechne die absoluten und relativen Häufigkeiten für Klassen der Breite $d=6cm$ . Beginne die erste Klasse mit dem Datenpunkt $159cm$ . Stelle eine Tabelle auf.

Solution

Wir wollen nun die Häufigkeitsverteilung der verschiedenen Klassen grafisch darstellen. Dazu brauchen wir nicht ein Balkendiagramm (wo die Höhe gerade die relative Häufigkeiten representieren), sondern ein Histogramm. In einem Histogramm ist die Breite der Balken fest vorgegeben, es muss gerade die Breiten der Klasse sein. Und die relative Häufigkeit wird durch die Fläche des Balkens representiert. Ist also die Breite der Klasse $d$ , und die relative Häufigkeit für diese Klasse $h$ , so ist die Höhe des Balkens

\text{Balkenhöhe}=\frac{h}{d}

Die Balkenhöhe wird auch Dichte genannt. Im Beispiel 1 oben haben wir die Dichten schon in der Tabelle berechnet. Das Histogramm sieht also wie folgt aus:

Exercise 1

Skizziere das Histogramm der Häufigkeitsverteilung in Aufgabe 1.

Solution

Beachte, dass die Klassenbreite einen grossen Einfluss auf das Histogramm hat. Mache dazu die folgende Aufgabe:

Exercise 2

Brauche nochmals die Körpergrössen von Aufgabe 1. Bestimme die Histogramme für die zwei Klassenbreiten $d=2cm$ und $d=12cm$ . Beginne die Klassen immer bei $159cm$ .

Welche der Histogramme ( $d=2cm$ , $d=6cm$ von Aufgabe 1, $d=12cm$ ) ist "besser", und in welchem Sinne "besser"?

Solution

Die Tabellen mit der Grössenverteilungen für $d=2cm$ und $d=12cm$ sind unten gezeigt:

Und die dazugehörigen Histogramme sind hier:

Das Histogramm mit Klassenbreite $d=6cm$ ist ein guter Kompromiss zwischen zu detailierte und zu grobe Verteilungen, und in dem Sinne das "beste".