Häufigkeitsverteilung von diskreten Daten

Gegeben sei ein Zufallsexperiment mit einer diskreten Zufallsvariablen XX, welche die möglichen Werte x1,...,xrx_1,...,x_r besitzt. Konkret, wir würfeln einmal einen fairen Würfel und setzen XX="beobachtete Zahl", so dass die möglichen Werte 1,2,3,4,5,61,2,3,4,5,6 sind. Das Experiment werde m=10m=10 Mal durchgeführt, was zum folgenden Datensatz führen könnte:

2,5,4,6,6,3,1,1,2,42,5,4,6,6,3,1,1,2,4

Die Häufigkeitsverteilung des Datensatzes ist eine Tabelle, die aufzeigt, wie oft jeder mögliche Wert von XX auftritt

xiHa¨ufigkeitrel Ha¨ufigkeit yi122/10222/10311/10422/10511/10622/10\begin{array}{l|c|c} x_i & \text{Häufigkeit} & \text{rel Häufigkeit } y_i \\\hline 1 & 2 & 2/10\\ 2 & 2 & 2/10\\ 3 & 1 & 1/10\\ 4 & 2 & 2/10\\ 5 & 1 & 1/10\\ 6 & 2 & 2/10\\ \end{array}

Beachte, dass wir die Zählungen in der Regel als relative Häufigkeiten oder Prozentsätze der Gesamtzahl der Datenpunkte im Satz ausdrücken. Wir können auch ein Diagramm der Häufigkeitstabelle (unter Verwendung der relativen Häufigkeiten) erstellen, das sogenannte Balkendiagramm. Die möglichen Werte im Datensatz werden entlang der xx-Achse und die relativen Häufigkeiten entlang der yy-Achse angegeben:

Note 1

Beachte, dass wir das Balkendiagramm hier nicht mit Balken sondern mit Punkten zeichnen. Beides ist üblich. Wir brauchen hier Punkte, um Balkendiagramme klar von Histogrammen zu unterscheiden (siehe nächstes Kapitel), die immer mit Balken gezeichnet werden. Der wesentliche Unterschied: Beim Balkendiagramm hat die Balkenbreite keine Bedeutung, beim Histogramm schon.

Wie sieht das Balkendiagramm aus, wenn wir die Anzahl der Datenpunkte mm erhöhen, sagen wir m=100000m=100\,000? Mit anderen Worten, was passiert, wenn wir das Experiment m=100000m=100\,000 mal wiederholen? Nun, per Definition der Wahrscheinlichkeit wird die relative Häufigkeit die Wahrscheinlichkeit für die Beobachtung einer 11 (oder 2,...,62,...,6) annähern, also haben wir dann

xirel Ha¨ufigkeit yi1p(X=1)=1/62p(X=2)=1/63p(X=3)=1/64p(X=4)=1/65p(X=5)=1/66p(X=6)=1/6\begin{array}{l|c|c} x_i & \text{rel Häufigkeit } y_i\\\hline 1 & \approx p(X=1) = 1/6\\ 2 & \approx p(X=2) = 1/6\\ 3 & \approx p(X=3) = 1/6\\ 4 & \approx p(X=4) = 1/6\\ 5 & \approx p(X=5) = 1/6\\ 6 & \approx p(X=6) = 1/6\\ \end{array}

Für mm \rightarrow \infty sind die Balkenhöhen also gerade die Wahrscheinlichkeitsfunktion der Zufallsvariablen XX.

Fassen wir zusammen:

Summary 1: Beziehung Balkendiagramm und Wahrscheinlichkeitsfunktion von X

Gegeben sei eine diskrete Zufallsvariable XX, der durch ein mm-mal wiederholtes Zufallsexperiment erzeugt wird, und eine diskrete Zufallsvariable XX mit den möglichen Werten x1,...,xux_1,...,x_u. Der Datensatz könnte also wie folgt aussehen:

x3,x1,x1,x5,x7,x1,...m Datenpunkte\underbrace{x_3, x_1, x_1, x_5, x_7, x_1, ...}_{m \text{ Datenpunkte}}

Seien y1,...,yry_1,..., y_r die relativen Häufigkeiten der Werte x1,...,xux_1,...,x_u im Datensatz. Die Wahrscheinlichkeitsfunktion fXf_X von XX ist definiert als

fX(x)={p(X=x)x{x1,...xu}0andernfallsf_X(x) = \begin{cases} p(X=x) & x\in \{x_1,...x_u\} \\ 0 & \text{andernfalls} \end{cases}

Dann approximieren die relativen Häufigkeiten y1,...,yuy_1, ..., y_u der Datenpunkte im Datensatz (die Balkenhöhen im Balkendiagramm) die Wahrscheinlichkeitsfunktion fXf_X von XX:

y1fX(x1)y_1 \approx f_X(x_1)y2fX(x2)y_2 \approx f_X(x_2)......ymfX(xu) y_m \approx f_X(x_u)

Je grösser der Datensatz (d.h. mm), desto besser ist diese Approximation.

Exercise 1

Eine Münze mit p(K)=0.25p(K)=0.25 wird 44-mal geworfen. Es sei NN="Anzahl Kopf". Der Versuch wird 10001000 mal durchgeführt. Bestimme die ungefähre Häufigkeitsverteilung von dem erhaltenen Datensatz, und skizziere das Balkendiagramm.

Solution

Dies ist eine Binomialverteilung, wobei n=4n=4 und die Erfolgswahrscheinlichkeit ist p(K)=0.25p(K)=0.25. Wir haben also

p(N=0)=(n0)0.2500.754=0.316p(N=1)=(n1)0.2510.753=0.422p(N=2)=(n2)0.2520.752=0.211p(N=3)=(n3)0.2530.751=0.047p(N=4)=(n4)0.2540.750=0.004\begin{array}{llll} p(N=0)= \left( \begin{array}{ll} n \\ 0 \end{array}\right) 0.25^0 0.75^4 & =0.316 \\ p(N=1)= \left( \begin{array}{ll} n \\ 1 \end{array}\right) 0.25^1 0.75^3 & = 0.422\\ p(N=2)= \left( \begin{array}{ll} n \\ 2 \end{array}\right) 0.25^2 0.75^2 &= 0.211 \\ p(N=3)= \left( \begin{array}{ll} n \\ 3 \end{array}\right) 0.25^3 0.75^1 &= 0.047 \\ p(N=4)= \left( \begin{array}{ll} n \\ 4 \end{array}\right) 0.25^4 0.75^0 &= 0.004 \\ \end{array}

Führen wir das Experiment 10001000 Mal durch, so nimmt NN zufällig die Werte 00,11,22,33, und 44 an. Die 00 wird in 31.6%31.6\% dieser Experimente angenommen (relative Häufigkeit 0.3160.316, absoluten Anzahl ist also 316316), die 11 wird in 42.2%42.2\% der Fälle angenommen (relative Häufigkeit 0.422, absolute Anzahl 422422), und so weiter. Wir haben also die folgende Häufigkeitstabelle:

xiHa¨ufigkeitrel Ha¨ufigkeit yi03160.31614220.42222110.2113470.047440.004\begin{array}{l|c|c} x_i & \text{Häufigkeit} & \text{rel Häufigkeit } y_i \\\hline 0 & 316 & 0.316\\ 1 & 422 & 0.422\\ 2 & 211 & 0.211\\ 3 & 47 & 0.047\\ 4 & 4 & 0.004\\ \end{array}

Dies sind nur ungefähre Werte, da die Wahrscheinlichkeiten nur dann die Prozente angeben, falls die Anzahl Experiment NN extrem hoch ist, also viel höher als 10001000.