Häufigkeitsverteilung von diskreten Daten

Gegeben sei ein Zufallsexperiment mit einer diskreten Zufallsvariablen $X$ , welche die möglichen Werte $x_1,...,x_r$ besitzt. Konkret, wir würfeln einmal einen fairen Würfel und setzen $X$ ="beobachtete Zahl", so dass die möglichen Werte $1,2,3,4,5,6$ sind. Das Experiment werde $m=10$ Mal durchgeführt, was zum folgenden Datensatz führen könnte:

2,5,4,6,6,3,1,1,2,4

Die Häufigkeitsverteilung des Datensatzes ist eine Tabelle, die aufzeigt, wie oft jeder mögliche Wert von $X$ auftritt

\begin{array}{l|c|c} x_i & \text{Häufigkeit} & \text{rel Häufigkeit } y_i \\\hline 1 & 2 & 2/10\\ 2 & 2 & 2/10\\ 3 & 1 & 1/10\\ 4 & 2 & 2/10\\ 5 & 1 & 1/10\\ 6 & 2 & 2/10\\ \end{array}

Beachte, dass wir die Zählungen in der Regel als relative Häufigkeiten oder Prozentsätze der Gesamtzahl der Datenpunkte im Satz ausdrücken. Wir können auch ein Diagramm der Häufigkeitstabelle (unter Verwendung der relativen Häufigkeiten) erstellen, das sogenannte Balkendiagramm. Die möglichen Werte im Datensatz werden entlang der $x$ -Achse und die relativen Häufigkeiten entlang der $y$ -Achse angegeben:

Note 1

Beachte, dass wir das Balkendiagramm hier nicht mit Balken sondern mit Punkten zeichnen. Beides ist üblich. Wir brauchen hier Punkte, um Balkendiagramme klar von Histogrammen zu unterscheiden (siehe nächstes Kapitel), die immer mit Balken gezeichnet werden. Der wesentliche Unterschied: Beim Balkendiagramm hat die Balkenbreite keine Bedeutung, beim Histogramm schon.

Wie sieht das Balkendiagramm aus, wenn wir die Anzahl der Datenpunkte $m$ erhöhen, sagen wir $m=100\,000$ ? Mit anderen Worten, was passiert, wenn wir das Experiment $m=100\,000$ mal wiederholen? Nun, per Definition der Wahrscheinlichkeit wird die relative Häufigkeit die Wahrscheinlichkeit für die Beobachtung einer $1$ (oder $2,...,6$ ) annähern, also haben wir dann

\begin{array}{l|c|c} x_i & \text{rel Häufigkeit } y_i\\\hline 1 & \approx p(X=1) = 1/6\\ 2 & \approx p(X=2) = 1/6\\ 3 & \approx p(X=3) = 1/6\\ 4 & \approx p(X=4) = 1/6\\ 5 & \approx p(X=5) = 1/6\\ 6 & \approx p(X=6) = 1/6\\ \end{array}

Für $m \rightarrow \infty$ sind die Balkenhöhen also gerade die Wahrscheinlichkeitsfunktion der Zufallsvariablen $X$ .

Fassen wir zusammen:

Summary 1: Beziehung Balkendiagramm und Wahrscheinlichkeitsfunktion von X

Gegeben sei eine diskrete Zufallsvariable $X$ , der durch ein $m$ -mal wiederholtes Zufallsexperiment erzeugt wird, und eine diskrete Zufallsvariable $X$ mit den möglichen Werten $x_1,...,x_u$ . Der Datensatz könnte also wie folgt aussehen:

\underbrace{x_3, x_1, x_1, x_5, x_7, x_1, ...}_{m \text{ Datenpunkte}}

Seien $y_1,..., y_r$ die relativen Häufigkeiten der Werte $x_1,...,x_u$ im Datensatz. Die Wahrscheinlichkeitsfunktion $f_X$ von $X$ ist definiert als

f_X(x) = \begin{cases} p(X=x) & x\in \{x_1,...x_u\} \\ 0 & \text{andernfalls} \end{cases}

Dann approximieren die relativen Häufigkeiten $y_1, ..., y_u$ der Datenpunkte im Datensatz (die Balkenhöhen im Balkendiagramm) die Wahrscheinlichkeitsfunktion $f_X$ von $X$ :

y_1 \approx f_X(x_1)

y_2 \approx f_X(x_2)

...

y_m \approx f_X(x_u)

Je grösser der Datensatz (d.h. $m$ ), desto besser ist diese Approximation.

Exercise 1

Eine Münze mit $p(K)=0.25$ wird $4$ -mal geworfen. Es sei $N$ ="Anzahl Kopf". Der Versuch wird $1000$ mal durchgeführt. Bestimme die ungefähre Häufigkeitsverteilung von dem erhaltenen Datensatz, und skizziere das Balkendiagramm.

Solution

Dies ist eine Binomialverteilung, wobei $n=4$ und die Erfolgswahrscheinlichkeit ist $p(K)=0.25$ . Wir haben also

\begin{array}{llll} p(N=0)= \left( \begin{array}{ll} n \\ 0 \end{array}\right) 0.25^0 0.75^4 & =0.316 \\ p(N=1)= \left( \begin{array}{ll} n \\ 1 \end{array}\right) 0.25^1 0.75^3 & = 0.422\\ p(N=2)= \left( \begin{array}{ll} n \\ 2 \end{array}\right) 0.25^2 0.75^2 &= 0.211 \\ p(N=3)= \left( \begin{array}{ll} n \\ 3 \end{array}\right) 0.25^3 0.75^1 &= 0.047 \\ p(N=4)= \left( \begin{array}{ll} n \\ 4 \end{array}\right) 0.25^4 0.75^0 &= 0.004 \\ \end{array}

Führen wir das Experiment $1000$ Mal durch, so nimmt $N$ zufällig die Werte $0$ , $1$ , $2$ , $3$ , und $4$ an. Die $0$ wird in $31.6\%$ dieser Experimente angenommen (relative Häufigkeit $0.316$ , absoluten Anzahl ist also $316$ ), die $1$ wird in $42.2\%$ der Fälle angenommen (relative Häufigkeit 0.422, absolute Anzahl $422$ ), und so weiter. Wir haben also die folgende Häufigkeitstabelle:

\begin{array}{l|c|c} x_i & \text{Häufigkeit} & \text{rel Häufigkeit } y_i \\\hline 0 & 316 & 0.316\\ 1 & 422 & 0.422\\ 2 & 211 & 0.211\\ 3 & 47 & 0.047\\ 4 & 4 & 0.004\\ \end{array}

Dies sind nur ungefähre Werte, da die Wahrscheinlichkeiten nur dann die Prozente angeben, falls die Anzahl Experiment $N$ extrem hoch ist, also viel höher als $1000$ .