Balkendiagramme und W'keit

Um die Häufigkeitsverteilung von diskreten Daten zu finden, zähelen wir einfach, wie oft jeder Datenpunkt vorkommt. Zum Beispiel, für den Datensatz (10-mal würfeln)

2,5,4,6,6,3,1,1,2,4

ist die Häufigkeitsverteilung gegeben durch

\begin{array}{l|c|c} x_i & \text{Häuf} & \text{rel Häuf } y_i \\\hline 1 & 2 & 0.2\\ 2 & 2 & 0.2\\ 3 & 1 & 0.1\\ 4 & 2 & 0.2\\ 5 & 1 & 0.1\\ 6 & 2 & 0.2\\ \end{array}

wobei $x_i$ für die Datenpunkte steht ( $x_1=2, x_2=5, x_3=4, ...$ ) und "Häuf" für die Häufigkeit des Datenpunkts $x_i$ steht. Beachte, dass wir normalerweise die Häufigkeit als Prozentzahl oder relative Häufigkeit $y_i$ ausdrücken (wobei $100\%$ die Anzahl aller Datenpunkte ist).

Stellen wir die relative Häufigkeiten in einem Koordinatensystem durch Punkte aus (siehe unten), so erhalten wir das sogenannte Balkendiagramm. Dabei werden die möglichen Daten im Datensatz entlang der $x$ -Achse aufgetragen, und die relativen Häufigkeiten entlang der $y$ -Achse.

Exercise 1

Aufgabe 1

Was für ein Häufigkeitsdiagramm ist zu erwarten, wenn wir einen Datensatz haben der durch $1\,000\,000$ -mal würfeln entstanden ist?

Show

Lösung

Die relativen Häufigkeiten werden dann die Wahrscheinlichkeit approximieren, eine bestimmte Augenzahl zu würfeln, welche für einen fairen Würfel $1/6$ beträgt.

\begin{array}{l|c|c} x_i & \text{rel Häuf } y_i\\\hline 1 & \approx 1/6\\ 2 & \approx 1/6\\ 3 & \approx 1/6\\ 4 & \approx 1/6\\ 5 & \approx 1/6\\ 6 & \approx 1/6\\ \end{array}

Die obige Aufgabe zeigt, dass die Punkte im Balkendiagramm die Wahrscheinlichkeiten $p(x_i)$ approximieren, daher die Wahrscheinlichkeit, dass der Punkt $x_i$ erscheint.

Exercise 2

Aufgabe 2

Eine Münze mit $p(K)=0.25$ wird $4$ -mal geworfen. Es sei $N$ ="Anzahl Kopf". Der Versuch wird $1000$ mal durchgeführt. Bestimme die ungefähre Häufigkkeitsverteilung von $N$ , und skizziere das Balkendiagramm.

Show

Lösung

Dies ist eine Binomialverteilung, wobei $n=4$ und die Erfolgswahrscheinlichkeit ist $p(K)=0.25$ . Wir haben also

\begin{array}{llll} p(N=0)= \left( \begin{array}{ll} n \\ 0 \end{array}\right) 0.25^0 0.75^4 & =0.316 \\ p(N=1)= \left( \begin{array}{ll} n \\ 1 \end{array}\right) 0.25^1 0.75^3 & = 0.422\\ p(N=2)= \left( \begin{array}{ll} n \\ 2 \end{array}\right) 0.25^2 0.75^2 &= 0.211 \\ p(N=3)= \left( \begin{array}{ll} n \\ 3 \end{array}\right) 0.25^3 0.75^1 &= 0.047 \\ p(N=4)= \left( \begin{array}{ll} n \\ 4 \end{array}\right) 0.25^4 0.75^0 &= 0.004 \\ \end{array}

Führen wir das Experiment $1000$ Mal durch, so nimmt $N$ zufällig die Werte $0$ , $1$ , $2$ , $3$ , und $4$ an. Die $0$ wird in $31.6\%$ dieser Experimente angenommen (relative Häufigkeit $0.316$ , absoluten Anzahl ist also $316$ ), die $1$ wird in $42.2\%$ der Fälle angenommen (relative Häufigkeit 0.422, absolute Anzahl $422$ ), und so weiter. Wir haben also die folgende Häufigkeitstabelle:

\begin{array}{l|c|c} x_i & \text{Häuf} & \text{rel Häuf } y_i \\\hline 0 & 316 & 0.316\\ 1 & 422 & 0.422\\ 2 & 211 & 0.211\\ 3 & 47 & 0.047\\ 4 & 4 & 0.004\\ \end{array}

Dies sind nur ungefähre Werte, da die Wahrscheinlichkeiten nur dann die Prozente angeben, falls die Anzahl Experiment $N$ extrem hoch ist, also viel höher als $1000$ .