Histogramme

Bei stetigen Merkmalen (oder bei einer grossen Anzahl von möglichen Merkmalsausprägungen) ist die Berechung der absoluten und relativen Häufigkeiten einer Merkmalsausprägung kaum sinnvoll. Nehmen wir zum Beispiel die Körpergrösse eines Schülers oder einer Schülerin an der FMS als Merkmal. Mögliche Merkmalsausprägungen, also die möglichen Körpergrössen, sind alle Zahlen zwischen, sagen wir, 150cm150cm und 200cm200cm. Also 150.1cm150.1cm ist dabei, wie auch 180.65cm180.65cm, usw.

150cm,...,150.05cm,...150.1cm,...,180.65cm,...200cm150cm, ..., 150.05cm, ... 150.1cm, ..., 180.65cm,... 200cm

Nun werden aber nur ganz wenige Personen and der FMS genau die gleiche Körpergrösse von 150.1cm150.1cm besitzen. Die absolute Häufigkeit ist vielleicht 11 oder 22. Und viele andere Körpergrössen, wie 150.11cm150.11cm, oder 150.23cm150.23cm werden möglicherweise gar nie vorkommen. Bei etwa 200200 Personen an der FMS ist die relative Häufigkeit dann für alle Grössen entweder 00 oder sehr klein (1/200=0.0051/200=0.005 oder 2/200=0.012/200=0.01).

Es macht daher mehr Sinn, die Merkmalsausbildungen in Klassen zu gruppieren, und die absolute und relative Häufigkeiten für diese Klassen zu bestimmen. Eine mögliche Klassenbildung für das Beispiel oben könnte zum Beispiel sein:

150cm bis 175cm150cm \text{ bis } 175cm 175cm bis 200cm175cm \text{ bis } 200cm 200cm bis 225cm200cm \text{ bis } 225cm

Wir bestimmen dann die absolute und relative Häufigkeiten jeder Klasse. Wir bestimmen dann also nicht, wie viele Personen genau die Körpergrösse 150.1cm150.1cm besitzen, sondern wie viele Personen eine Körpergrösse zwischen 150cm150cm und 175cm175cm besitzen, was wieder mehr Sinn ergibt.

Die Breite der Klasse, im Beispiel 25cm25cm, wird Klassenbreite genannt. Im Prinzip müssen nicht alle Klassen die gleiche Breite haben, wird aber typischerweise so gemacht. Die Grösse der Klassenbreite spielt eine grosse Rolle. Wird sie zu klein gewählt (etwa 0.5cm0.5cm), sind wir wieder beim Problem von ganz oben

Warning

Beachte, dass Klassen zum Teil die gleichen Ränder haben. In welche Klasse gehört dann aber zum Beispiel der Datenpunkt 175cm175cm ? Wir vereinbaren hier, dass wir ihn in die untere Klasse stecken, also in die Klasse

150cm bis 175cm150cm \text{ bis } 175cm

Der Datenpunkt 200cm200cm stecken wir demnach in die Klasse

175cm bis 200cm175cm \text{ bis } 200cm

Hier ist ein konkretes Beispiel:

Example 1

Die Körpergrössen von Schülern und Schülerinnen einer Klasse wurde wiefolgt gemessen (in cm):

162,163,169,169,173,163,186,173,172,159,166,161,164,162,170,180,163162, 163, 169, 169, 173, 163, 186, 173, 172, 159, 166, 161, 164, 162, 170, 180, 163

Beginnend mit 159cm159cm, berechne die absoluten und relativen Häufigkeiten für Klassen der Breite d=6cmd=6cm. Beginne die erste Klasse mit dem Datenpunkt 159cm159cm. Stelle eine Tabelle auf.

Solution

Wir wollen nun die Häufigkeitsverteilung der verschiedenen Klassen grafisch darstellen. Dazu brauchen wir nicht ein Balkendiagramm (wo die Höhe gerade die relative Häufigkeiten representieren), sondern ein Histogramm. In einem Histogramm ist die Breite der Balken fest vorgegeben, es muss gerade die Breiten der Klasse sein. Und die relative Häufigkeit wird durch die Fläche des Balkens representiert. Ist also die Breite der Klasse dd, und die relative Häufigkeit für diese Klasse hh, so ist die Höhe des Balkens

Balkenho¨he=hd\text{Balkenhöhe}=\frac{h}{d}

Die Balkenhöhe wird auch Dichte genannt. Im Beispiel 1 oben haben wir die Dichten schon in der Tabelle berechnet. Das Histogramm sieht also wie folgt aus:

Exercise 1

Skizziere das Histogramm der Häufigkeitsverteilung in Aufgabe 1.

Solution

Beachte, dass die Klassenbreite einen grossen Einfluss auf das Histogramm hat. Mache dazu die folgende Aufgabe:

Exercise 2

Brauche nochmals die Körpergrössen von Aufgabe 1. Bestimme die Histogramme für die zwei Klassenbreiten d=2cmd=2cm und d=12cmd=12cm. Beginne die Klassen immer bei 159cm159cm.

Welche der Histogramme (d=2cmd=2cm, d=6cmd=6cm von Aufgabe 1, d=12cmd=12cm) ist "besser", und in welchem Sinne "besser"?

Solution

Die Tabellen mit der Grössenverteilungen für d=2cmd=2cm und d=12cmd=12cm sind unten gezeigt:

Und die dazugehörigen Histogramme sind hier:

Das Histogramm mit Klassenbreite d=6cmd=6cm ist ein guter Kompromiss zwischen zu detailierte und zu grobe Verteilungen, und in dem Sinne das "beste".