Histogramme und W'keit
Falls der Datensatz kontinuierlich ist, ist ein Balkendiagramm nicht hilfreich, da es kaum der Fall sein wird, dass ein Datenpunkt mehrmals erscheinen wird.
Zum Beispiel, wenn wir das Gewicht (in Gramm) von M&Ms genau bestimmen, könnten wir den folgenden Datensatz bekommen: erhalten wir etwa den folgen Datensatz:
Wir können uns die Produktion von M&Ms als Zufallsprozess vorstellen, wobei eine Maschine M&Ms mit Zufallsgewichten herstellt (in einem gewissen Intervall , zum Beispiel ). Es ist sicherlich der Fall, dass es kaum ein zweites M&M gibt mit dem genau gleichen Gewicht von .
Ein besserer Ansatz besteht deshalb darin, Gewichtsklassen zu bilden (etwa von , von , von ), und so weiter, und dann zu bestimmen, wie viele M&Ms in jede Klasse fallen. Die Klassengrösse wird dabei mit abgekürzt, in unserem Fall ist also .
Wir bekommen also die folgende Häufigkeitsverteilung der Gewichte:
Für kontinuierliche Daten sind wir vor allem an der Dichte interessiert, was die relative Häufigkeit der Datenpunkte geteilt durch die Klassengrösse ist:
Beachte auch, dass nun der Mittelpunkt der Klasse repräsentiert. Die graphische Representation der Häufigkeitsverteilung wird mit Balken dargestellt (siehe unten). Dabei wird die Klassenmitte entlang der -Achse aufgetragen, und die Dichte entlan der -Achse. Dieses Diagramm wird Histogramm genannt.
Die relative Häufigkeit ist somit durch die Fläche eines Balkens gegeben. Bei genügend vielen Datenpunkten entspricht die Fläche des Balkens also der Wahrscheinlichkeit, dass ein M&M mit dem Gewicht zwischen und liegt.
Aufgabe 1
Bestimme für das obigen Histogramm die ungefähre Wahrscheinlichkeit, dass ein M&M ein Gewicht zwischen und besitzt.
Show
Lösung
Die ungefähre Wahrscheinlichkeit ist gerade die Summe der zwei Balkenflächen mit den Mittelpunkten und , also .
Die Wahl der Klassenbreite ist wichtig. Wird sie zu klein gewählt, so werden die meisten Klassen nur sehr wenige Datenpunkte enthalten (siehe Figure unten, rechts). Ist die Klassenbreite zu gross, sehen wir nur noch grob, wie die Daten verteilt sind (unten, rechts). In der Praxis versuchen wir durch ausprobieren von verschiedenen Klassenbreiten ein Histogramm zu finden, das irgendwo zwischen diesen beiden Exremen liegt.
Je mehr Daten wir haben, desto kleiner kann die Klassenbreite gewählt werden, da dann genügend Daten in der Klasse sein werden, und der Fall links vermieden werden kann. Es gilt nun das folgende:
Bei wirklich kleinen Klassenbreiten und genügend vielen Datenpunkten erhalten wir ein Histogramm, das ununterscheidbar von der Fläche unter einer geschmeidigen Kurve ist (siehe Bild unten). In diesem Fall ist dann die Wahrscheinlichkeit, dass ein Datenwert zwischen zwei beliebigen Werten und ist, gegeben durch die Fläche unter der Kurve von nach (siehe Bild unten):
Die Kurve wird Dichtefunktion der Verteilung genannt.
Aufgabe 2
- Wie gross ist die Gesamtfläche under einer Dichtefunktion ?
- Es seien und zwei Werte, und liegt irgendwo zwischen und . Ist die folgende Aussage korrekt?
Zeichne die Situation und argumentiere! 3. Das Gewicht von Gummibärchen habe eine Verteilung, welchen unten skizziert ist. Bestimme mit Hilfe der Skizze die (ungefähre) Wahrscheinlichkeit, dass das Gewicht eines Gummibärchens zwischen und liegt.

Show
Lösung
- , da die Addition aller relativen Häufigkeiten (Balkenflächen) ergeben muss.
- Ja, die Aussage stimmt, zeichne die Situation!
- , wobei die Fläche unter der Kurve von bis ist (siehe Skizze unten). Diese können wir zum Beispiel durch ein Rechteck mit Breite und Höhe approximieren, es ist also
