Binomialtest

Was ist Randomness?

Der Zufall kann vielerorts beobachtet werden. Er ist keineswegs auf die Disziplin Mathematik beschränkt. Beispielsweise spricht man auch in der Philosophie in diesem Zusammenhang von Zufall, freiem Willen und Determinismus. In der Mathematik hat man es gewagt, den Zufall zu quantifizieren, was ihn übersichtlicher und greifbarer werden lässt. Wenn wir einen Würfel werfen, dann wissen wir im Allgemeinen zwar nicht, welche Zahl erscheinen wird, aber wir können einen Wert angeben - die Wahrscheinlichkeit für ein Ereignis - mit der wir das gewünschte Resultat erwarten.

Nun, eine beliebte Aufgabe von mir ist, Schülern als Hausaufgabe eine Münze 100 Mal werfen zu lassen und das Ergebnis zu notieren. Später wird die Folge darauf analysiert, ob sie wirklich zufällig entstanden ist oder nicht. Bevor wir uns überlegen, wie wir das machen könnten, betrachten wir zuerst zwei Bilder aus einer Lesung von Peter Coles. Eines wurde durch eine Zufallsfunktion erzeugt, das andere nicht.

Richtig, beim letzten Bild wurden die Punkte in den Abständen ausgelotet; das andere Bild ist das "Random Picture". Auffällig, aber auch charakteristisch, ist ein "Clumping", das man bei zufälligen Prozessen beobachten kann. Und genau das wird Schülern bei der Münze-Werfen-Hausaufgabe zum Verhängnis. Nämlich: Diejenigen, die bloss eine Folge von Kopf und Zahl niederschreiben und denken, sie könnten den Zufall simulieren, werden in der Regel zu wenig Clumping in ihren Folgen haben. Clumping bedeutet für das Münzewerfen, dass ihre Folgen zu wenige, lange Teilfolgen von Kopf bzw. Zahl zeigen.

Random-Test

Nun zur Frage, wie man eine solche Folge testen könnte? Im Folgenden möchte ich von $0$ und $1$ sprechen und nicht von Kopf und Zahl; einfach deshalb, weil dies übersichtlicher ist. Am einfachsten beginnt man mit dem Zählen von $0$ und $1$ . Bei $100$ Würfen sollten die beiden Ziffern in etwa gleicher Anzahl vorkommen. Danach könnte man Paare zählen: $00$ , $01$ , $10$ und $11$ müssten etwa in gleicher Anzahl auftauchen. Einer meiner Favoriten ist der Poker-Test, bei dem man die Sequenz in $5$ -er Pakete aufteilt und dann guckt, ob die entsprechenden Pakete mit den Poker-Wahrscheinlichkeiten überein stimmen. Bei einer binären Sequenz wie dieser könnte man gucken, wie viele Full-Houses vorkommen?

Note 1

Eine gewisse Unsicherheit bleibt jedoch immer. Eine Sequenz, die all meinen Tests auf Muster erfolgreich standhält, ist dann "bloss" mit einer gewissen Wahrscheinlichkeit random. Absolute Sicherheit gibt es nicht.

Example 1: Münzen-Fairness-Test

Betrachten wir eine Münze (Kopf, Zahl; $1$ , $0$ ), die wir auf Fairness testen wollen. Bei $4$ Würfen zum Testzweck erwarten wir folgende Ausgänge und zugehörige Wahrscheinlichkeiten:

$\{1,1,1,1\}$ mit $(\tfrac{1}{2})^4\cdot1$
$\{0,1,1,1\}$ mit $(\tfrac{1}{2})^4\cdot4$
$\{0,0,1,1\}$ mit $(\tfrac{1}{2})^4\cdot6$
$\{0,0,0,1\}$ mit $(\tfrac{1}{2})^4\cdot4$
$\{0,0,0,0\}$ mit $(\tfrac{1}{2})^4\cdot1$

Lassen wir die Extremfälle (nur Kopf bzw. nur Zahl) weg. Dann erwarte ich, für eine faire Münze, über viele Testläufe à 4 Würfen, trotzdem öfter einen asymmetrischen Ausgang (8 Mal) als den intuitiv fairen $\{0,0,1,1\}$ (6 Mal).

Binomialtest

Nicole H aus K spielt in ihrer Freizeit leidenschaftlich gerne Basketball. Sie besucht regelmässig das Training des BC Femina Bern.

Beim Freiwurf im Basketball handelt es sich um eine immer wiederkehrende Spielsituation. Aus diesem Grund kommt dem Freiwurftraining eine besondere Bedeutung zu. Aus Erfahrung weiss Nicole, dass sie im Training eine Freiwurftrefferquote von genau $40\%$ hat. Daraus leiten wir eine Trefferwahrscheinlichkeit von

p_0 = 0.4

für Trainingsfreiwürfe ab.

Nicole geht davon aus, dass sie unter Druck - zum Beispiel in einer Wettkampfsituation - eine höhere Trefferquote bei Freiwürfen hinkriegt als im Training. Ist dem wirklich so? Wie lässt sich diese Vermutung belegen?

Nullhypothese

Wir formulieren die beiden konkurrierenden Hypothesen zu ihrer Treffsicherheit:

Nullhypothese $H_0$ : $p=0.4$ (gleichbleibende Trefferwahrscheinlichkeit)
Alternativhypothese $H_A$ : $p>0.4$ (höhere Trefferwahrscheinlichkeit)

Wir nehmen an, dass $H_0$ wahr ist. In einer Wettkampfsituation tritt Nicole $n=5$ mal zu einem Freiwurf an und trifft $k=3$ mal. Auf Grund der Nullhypothese sind im Mittel

E = n\cdot p_0 = 5\cdot0.4 = 2

Treffer zu erwarten. Ein Wert von $k$ nahe bei $E$ lässt wenig Zweifel an der Richtigkeit von $H_0$ aufkommen. Aber je stärker $k$ von $E$ abweicht, desto unhaltbarer wird $H_0$ . Wir fassen alle Werte, die grösser oder gleich $k$ sind im kritischen Bereich $K$ zusammen:

K = \{k,k+1,\dots,n\}.

$K$ enthält also alle Werte, die $H_0$ schwächen und $H_A$ stärken.

Exercise 1: Trefferquoten

Illustriere alle Wahrscheinlichkeiten $k=0,\dots,5$ für $n=5$ und $p=0.4$ in unten stehendem Diagramm.

Solution

Exercise 2: Fehler 1. Art

Berechne nun die Wahrscheinlichkeit $\alpha_p$ dafür, dass wir bei $n$ Versuchen ein Ereignis aus dem kritischen Bereich $K$ erhalten, falls $H_0$ wahr ist. Im Falle unserer Spielerin nehmen wir also $n=5$ , $K = \{3,4,5\}$ und $p=0.4$ .

Solution

$P(X>2) = 1-\sum_{k=0}^2\binom{5}{k}0.4^k\cdot0.6^{5-k} \approx 0.317$

Signifikanz

Definition 1: Signifikanzwert

Die Wahrscheinlichkeit, dass wir in $n$ Versuchen ein Ereignis aus dem kritischen Bereich erhalten, heisst Signifikanzwert $\alpha_p$ oder kurz $p$ -Wert.

Note 2

Beim Higgs-Boson wurde ein $p$ -Wert von $5\sigma$ zugrunde gelegt. Das bedeutete in diesem Fall, dass eine Wahrscheinlichkeit von ca. $10^{-5}%$ besteht, dass dieses Signal bloss durch zufällige Hintergrundschwankungen (Rauschen etc.) zustande kam.

Je kleiner der $p$ -Wert ist, desto weniger spricht für die Nullhypothese $H_0$ , wenn wir im Bereich des $p$ -Werts landen. Es stellt sich daher die Frage, wie klein $\alpha_p$ sein muss, damit man $H_0$ verwirft? Sinnvolle Werte sind $\alpha_p = 0.05$ oder $\alpha_p = 0.01$ .

Definition 2: signifikant

Ist $\alpha_p \leq 0.05$ , so heisst das beobachtete Ereignis signifikant. Ist $\alpha_p \leq 0.01$ , so kriegt das beobachtete Ereignis sogar das Prädikat hochsignifikant.

Note 3

$5%$ gilt landläufig als Trennpunkt zwischen "kleinen" und "grossen" Wahrscheinlichkeiten. Die Hypothese $H_0$ ist nicht zwingend falsch, wenn $\alpha_p \leq 0.05$ ist. Wenn $H_0$ jedoch richtig ist, dann haben wir ein Ereignis mit sehr kleiner Wahrscheinlichkeit beobachtet. Somit würde man eher die Alternative $H_A$ der Nullhypothese $H_0$ vorziehen.

Im Beispiel unserer Spielerin hatten wir einen $p$ -Wert von $\alpha_p = 0.317$ . Dieser reicht also bei Weitem nicht aus, um $H_0$ zu verwerfen und sie eine höhere Trefferquote in Wettkampfsituationen zu attestieren. Denn auch bei einer gleichbleibenden Trefferquote von $p_0 = 0.4$ würde Nicole in fast jedem dritten Spiel drei oder mehr von fünf Freiwürfen verwerten.

Exercise 3: Signifikanzwert

Sie verwertet

a) $4$ oder $5$ von $5$ Freiwürfen,

b) $5$ von $5$ Freiwürfen.

Berechne die beiden Signifikanzwerte.

Solution

a) $\alpha_p = \sum_{k=4}^5\binom{5}{k}0.4^k\cdot0.6^{5-k} = 1-\texttt{binomcdf(5,0.4,3)} \approx 0.087 \approx 9\%$

b) $\alpha_p = 0.4^5=0.01024 \approx 1\%$

Einzig für den letzten Fall ist $\alpha_p \leq 0.05$ . Dieses Ereignis ist also statistisch signifikant und wir müssten die Nullhypothese $H_0$ zugunsten der Alternative $H_A$ verwerfen. Das heisst, wir könnten bei fünf Treffern davon ausgehen, dass unsere Spielerin in Wettkampfsituationen tatsächlich besser trifft als im Training.

Fehlerarten

Die Nullhypothese $H_0$ konkurriert mit der Alternativhypothese $H_A$ . Müssen wir eine Entscheidung treffen und einer der beiden Hypothesen den Vorzug geben, so können uns Fehler unterlaufen.

Fehler erster Art: Die Nullhypothese $H_0$ ist wahr, wird aber fälschlicherweise zugunsten der Alternativhypothese $H_A$ verworfen. Die Wahrscheinlichkeit, einen Fehler der ersten Art zu begehen, beträgt offensichtlich $\alpha_p$ .
Fehler zweiter Art: Die Nullhypothese $H_0$ ist falsch, wird aber trotzdem beibehalten. Die Fehlerwahrscheinlichkeit zweiter Art hängt von der Wahl des Parameters $p$ ab. Das wollen wir uns an unserem Trefferquotenbeispiel veranschaulichen.

Example 2: Fehler 2. Art

Angenommen, die Spielerin verwertet in einer Wettkampfsituation tatsächlich alle $5$ Freiwürfe. Die Gefahr, dass wir die Nullhypothese $H_0$ fälschlicherweise verwerfen (einen Fehler erster Art begehen) ist mit $\alpha_p = 0.010$ so klein, dass wir sie in Kauf nehmen. Bei mindestens $4$ Treffern hingegen ist die Wahrscheinlichkeit für einen Fehler der ersten Art mit $\alpha_p = 0.087$ zu gross, und wir bleiben bei der Nullhypothese $H_0$ . Damit kann uns aber ein Fehler zweiter Art unterlaufen, den wir uns genauer anschauen wollen. Gehen wir davon aus, dass die Spielerin tatsächlich ein Wettkampftyp ist und in Wettkampfsituationen eine Trefferquote von $p=0.6$ hat.

Exercise 4: Fehler 2. Art?

Illustriere alle Wahrscheinlichkeiten $k = 0, \dots, 5$ für $p = 0.6$ in unten stehendem Diagramm.

Solution

Die Alternativhypothese $H_A$ wäre somit wahr. Unsere Spielerin würde dann im Wettkampf mit der folgenden Wahrscheinlichkeit höchstens $4$ von $5$ Freiwürfen verwerten, was jedoch die Beibehaltung der Nullhypothese $H_0$ bedeutet:

\sum_{k=0}^4P(5,0.6,k) = \text{binomcdf}(5,0.6,4) \approx 0.922.

Die Wahrscheinlichkeit eines Fehlers zweiter Art ist also immens gross. Selbst wenn sie in Wettkampfsituationen eine Trefferquote von $p = 0.8$ hätte, würde die wahre Alternativhypothese $H_A$ mit einer Wahrscheinlichkeit von über 67% abgelehnt werden, wie aus der Abbildung hervorgeht.

Exercise 5: Fehler 2. Art mit p=0.8

Rechne den Fehler zweiter Art für $p=0.8$ nach.

Solution

Die Wahrscheinlichkeit eines Fehlers zweiter Art unter der Annahme $p = 0.8$ ist $P(0\leq X\leq4) = \sum_{k=0}^4\binom{5}{k}0.8^k\cdot0.2^{5-k} \approx 0.672$

Will die Spielerin mit der Versuchsanordnung von 5 Freiwürfen im Wettkampf zeigen, dass sie ein Wettkampftyp ist, dann entsteht das folgende Problem. Um die Wahrscheinlichkeit eines Fehlers erster Art unter 5% zu bringen (Signifikanzniveau), muss Nicole wirklich gut treffen, damit wir die Nullhypothese $H_0$ ablehnen. Sie muss so gut treffen, dass die Wahrscheinlichkeit eines Fehlers zweiter Art sehr gross wird. Somit hat es eine wahre Alternativhypothese sehr, sehr schwer ...

Konfidenzintervalle

Wir möchten den $p$ -Wert unter $5%$ halten und gleichzeitig die Wahrscheinlichkeit eines Fehlers zweiter Art auf ein "erträgliches Mass" reduzieren.

Note 4

Für eine weitere Analyse ist nun folgende Tatsache wichtig. Es bezeichnen $\mu$ bzw. $\sigma$ wie üblich den Erwartungswert bzw. die Standardabweichung. Für eine Binomialverteilung - oder eine Normalverteilung - gilt, dass ca. $66%$ aller Ereignisse im Intervall $[\mu-\sigma,\mu+\sigma]$ , $95%$ in $[\mu-2\sigma,\mu+2\sigma]$ und $99%$ in $[\mu-3\sigma,\mu+3\sigma]$ liegen.

Exercise 6: 🧩 100 Freiwürfe

Rechne das vorgestellte Beispiel für $100$ zugesprochene Freiwürfe. Wie viele Treffer muss die Spielerin mindestens erzielen, damit der $p$ -Wert unter $5%$ fällt und wir die Nullhypothese $H_0$ verwerfen?

Solution

Wir nehmen den Fehler einseitig, d.h, wir summieren alle Wahrscheinlichkeiten auf, bis wir die $95%$ grad überschreiten. Ein Hinweis liefern die oben angegebenen Konfidenzintervalle. Für das $95%$ berechnen wir $E(X) = np = 100\cdot0.4 = 40$ und $s = \sqrt{npq} = \sqrt{100\cdot0.4\cdot0.6} = \sqrt{24} \approx 5$ und kriegen die euphorische Schätzung $E+2s = 50$ . Nun probieren wir aus:

$\texttt{binomcdf(100,0.4,50)} \approx 0.983$
$\texttt{binomcdf(100,0.4,49)} \approx 0.958$
$\texttt{binomcdf(100,0.4,48)} \approx 0.936$

Also behalten wir die Nullhypothese für $X \leq 48$ Treffer bei und der Verwerfungsbereich ist $K=\{49,50,51,\dots,99,100\}$ . Die effektive Irrtumswahrscheinlichkeit, der Fehler 1. Art, beträgt $\alpha \approx 4.4\%$ .

Exercise 7: 25 Freiwürfe

In der Wettkampfsituation können bloss 25 Freiwürfe beobachtet werden. Ab wie vielen Treffern lehnst du die Nullhypothese bei einen Signifikanzniveau von $\alpha_p = 0.05$ ab? Ab welcher Trefferzahl lehnst du $H_0$ bei $\alpha_p = 0.01$ ab?

Wie gross wird jeweils die Wahrscheinlichkeit für einen Fehler der zweiten Art, wenn wir von einer tatsächlichen Wettkampftrefferwahrscheinlichkeit von $p=0.6$ ausgehen?

Solution

Für ein Signifikanzniveau von $5\%$ findet man durch Ausprobieren im Bereich $E+2s = 25\cdot0.4+2\cdot\sqrt{25\cdot0.4\cdot0.6} = 10+2\cdot\sqrt{6} \approx 15$ den Wert $\texttt{binomcdf(25,0.4,14)} \approx 0.966$ . Der kritische Bereich ist $K=\{15,16,17,\dots,24,25\}$ und die effektive Irrtumswahrscheinlichkeit $3.4%$ . Der Fehler 2. Art ist daher $\texttt{binomcdf(25,0.6,14)} \approx 0.425 \approx 43\%$ .

Für ein Signifikanzniveau von $\alpha_p = 1\%$ ergibt sich: $E+3\cdot s = 10+3\cdot\sqrt{6} \approx 17$ . Wir finden $\texttt{binomcdf(25,0.4,16)} \approx 0.996$ und dazu den Verwerfungsbereich $\{17,18,\dots,25\}$ . Der Fehler 2. Art ist dann $\texttt{binomcdf(25,0.4,16)} \approx 0.726 \approx 73\%$ .

Exercise 8: 🧩 Tatsächlich 5\%

Der Spielerin tatsächliche Wettkampftrefferwahrscheinlichkeit liege bei $p=0.5$ . Wie viele Wettkampffreiwürfe musst du beobachten, damit die Wahrscheinlichkeit für einen Fehler der ersten und der zweiten Art jeweils höchstens $5%$ betragen?

Solution

Ausprobieren... Wir können für eine erste Einschätzung die zweiseitigen Konfidenzintervalle befragen. Für $p_1=0.4$ ist $E+2s \approx 0.4n+\sqrt{n}$ und für $p_2 = 0.5$ $E+2s \approx 0.5n+\sqrt{n}$ . Nun könnte man mit $0.4n+\sqrt{n} = 0.5n-\sqrt{n}$ die links- und rechtsseitige Überschneidung berechnen. Aus $n = 20\sqrt{n}$ folgt $n^2 = 400n\Leftrightarrow n(n-400) = 0$ und wir suchten bei $400$ . Für einen einseitigen Intervall suche wir also über $200$ . Wir probieren und landen etwa bei $270$ : $\texttt{binomcdf(270,0.4,121)} \approx 0.95$ und $\texttt{binomcdf(270,0.5,121)} \approx 0.05$

Zweiseitige Tests

Der oben vorgestellte Test ist einseitig. Betrachte nun auch zweiseitige Tests.

Exercise 9: Faire Münze?

Gegeben sei eine Münze. Die zu prüfende Nullhypothese sei, dass die Münze fair ist, dass also Kopf und Zahl gleich wahrscheinlich sind. Die Alternativhypothese sei, dass ein Ergebnis wahrscheinlicher ist, wobei nicht festgelegt wird, welches der beiden wahrscheinlicher sein soll. Das Zufallsexperiment zum Testen der Nullhypothese bestehe nun darin, dass die Münze zwanzig Mal geworfen wird. $K$ bezeichne die Anzahl der Würfe, die "Kopf" als Ergebnis liefern. Bei einer fairen Münze wäre zehnmal "Kopf" zu erwarten. Als Statistik wählt man daher sinnvollerweise

X=|K-10|,

was in Worten die Abweichung vom Mittelwert "Kopf" einer fairen Münze ist. Angenommen, der Versuch liefert $K=14$ mal das Ergebnis "Kopf", also $X=4$ . Unter der Nullhypothese ist die Anzahl der Köpfe binomialverteilt mit $n=20$ und $p=0.5$ .

Berechne den $p$ -Wert. Ist die Münze wahrscheinlich "fair"; genauer: Wird die Nullhypothese verworfen? Wie sähe es für $X=5$ aus? (Quelle Wikipedia p-Wert, 2014)

Solution

Da der Test symmetrisch zu $E=10$ ist berechnen wir von unten her die Summe für $k$ Erfolge, bis wir den Wert $\frac{5\%}{2} = 2.5\%$ überschreiten. Es ist $\texttt{binomcdf(10,0.5,6)} \approx 0.058$ , die Abweichung von $X=4$ also statistisch nicht signifikant. Für $X=5$ sind wir bei $0.021$ und damit wäre die Abweichung signifikant. Der $p$ -Wert wäre hier $4.2\%$ .

Exercise 10: Cola Deckel

Der Deckel einer Cola-Falsche dient statt einer Münze als "Zufallsgenerator". Um zu testen, ob dieses Verfahren fair ist, wird der Deckel 7 mal geworfen und liefert

\cup\cup\cup\cup\cap\cup\cup

Formuliere $H_0$ und $H_A$ und teste diese.

Solution

$H_0$ : Deckel fair, $p=0.5$ . $H_A$ : Deckel unfair, $p \neq 0.5$ . Wir testen beidseitig: $\sum_{k=0}^1\binom{7}{k}0.5^7 \approx 0.062$ , also ist die Abweichung nicht signifikant und wir behalten die Nullhypothese, dass der Deckel fair ist.

Exercise 11: Hellseherische Fähigkeiten

Ein statistischer Test zur Überprüfung von hellseherischen Fähigkeiten. Wir zeigen einer Person 25 Mal die Rückseite einer rein zufällig gewählten Spielkarte und fragen sie jeweils danach, zu welcher der vier Farben (Kreuz, Pik, Herz, Karo) die Karte gehört. Ab wie vielen Treffern können der Person bei einem Signifikanzniveau von $\alpha_p = 0.01$ hellseherische Fähigkeiten attestiert werden?

Solution

Wir suchen $N$ mit $\sum_{k=0}^N\binom{25}{k}0.25^k\cdot0.75^{25-k} \stackrel{!}{>} 99\%$ . Wir schätzen $E+3s = 25\cdot0.25+3\cdot\sqrt{25\cdot0.25\cdot0.75} \approx 13$ . Es ist $\texttt{binomcdf(25,0.25,13)} \approx 0.998$ , $\texttt{binomcdf(25,0.25,12)} \approx 0.996$ und $\texttt{binomcdf(25,0.25,11)} \approx 0.989$ . Also gilt man ab $13$ richtigen "Tipps" hochsignifikant hellseherisch.