Binomialtest

Was ist Randomness?

Der Zufall kann vielerorts beobachtet werden. Er ist keineswegs auf die Disziplin Mathematik beschränkt. Beispielsweise spricht man auch in der Philosophie in diesem Zusammenhang von Zufall, freiem Willen und Determinismus. In der Mathematik hat man es gewagt, den Zufall zu quantifizieren, was ihn übersichtlicher und greifbarer werden lässt. Wenn wir einen Würfel werfen, dann wissen wir im Allgemeinen zwar nicht, welche Zahl erscheinen wird, aber wir können einen Wert angeben - die Wahrscheinlichkeit für ein Ereignis - mit der wir das gewünschte Resultat erwarten.

Nun, eine beliebte Aufgabe von mir ist, Schülern als Hausaufgabe eine Münze 100 Mal werfen zu lassen und das Ergebnis zu notieren. Später wird die Folge darauf analysiert, ob sie wirklich zufällig entstanden ist oder nicht. Bevor wir uns überlegen, wie wir das machen könnten, betrachten wir zuerst zwei Bilder aus einer Lesung von Peter Coles. Eines wurde durch eine Zufallsfunktion erzeugt, das andere nicht.

Richtig, beim letzten Bild wurden die Punkte in den Abständen ausgelotet; das andere Bild ist das "Random Picture". Auffällig, aber auch charakteristisch, ist ein "Clumping", das man bei zufälligen Prozessen beobachten kann. Und genau das wird Schülern bei der Münze-Werfen-Hausaufgabe zum Verhängnis. Nämlich: Diejenigen, die bloss eine Folge von Kopf und Zahl niederschreiben und denken, sie könnten den Zufall simulieren, werden in der Regel zu wenig Clumping in ihren Folgen haben. Clumping bedeutet für das Münzewerfen, dass ihre Folgen zu wenige, lange Teilfolgen von Kopf bzw. Zahl zeigen.

Random-Test

Nun zur Frage, wie man eine solche Folge testen könnte? Im Folgenden möchte ich von 00 und 11 sprechen und nicht von Kopf und Zahl; einfach deshalb, weil dies übersichtlicher ist. Am einfachsten beginnt man mit dem Zählen von 00 und 11. Bei 100100 Würfen sollten die beiden Ziffern in etwa gleicher Anzahl vorkommen. Danach könnte man Paare zählen: 0000, 0101, 1010 und 1111 müssten etwa in gleicher Anzahl auftauchen. Einer meiner Favoriten ist der Poker-Test, bei dem man die Sequenz in 55-er Pakete aufteilt und dann guckt, ob die entsprechenden Pakete mit den Poker-Wahrscheinlichkeiten überein stimmen. Bei einer binären Sequenz wie dieser könnte man gucken, wie viele Full-Houses vorkommen?

Note 1

Eine gewisse Unsicherheit bleibt jedoch immer. Eine Sequenz, die all meinen Tests auf Muster erfolgreich standhält, ist dann "bloss" mit einer gewissen Wahrscheinlichkeit random. Absolute Sicherheit gibt es nicht.

Example 1: Münzen-Fairness-Test

Betrachten wir eine Münze (Kopf, Zahl; 11, 00), die wir auf Fairness testen wollen. Bei 44 Würfen zum Testzweck erwarten wir folgende Ausgänge und zugehörige Wahrscheinlichkeiten:

  • {1,1,1,1}\{1,1,1,1\} mit (12)41(\tfrac{1}{2})^4\cdot1
  • {0,1,1,1}\{0,1,1,1\} mit (12)44(\tfrac{1}{2})^4\cdot4
  • {0,0,1,1}\{0,0,1,1\} mit (12)46(\tfrac{1}{2})^4\cdot6
  • {0,0,0,1}\{0,0,0,1\} mit (12)44(\tfrac{1}{2})^4\cdot4
  • {0,0,0,0}\{0,0,0,0\} mit (12)41(\tfrac{1}{2})^4\cdot1

Lassen wir die Extremfälle (nur Kopf bzw. nur Zahl) weg. Dann erwarte ich, für eine faire Münze, über viele Testläufe à 4 Würfen, trotzdem öfter einen asymmetrischen Ausgang (8 Mal) als den intuitiv fairen {0,0,1,1}\{0,0,1,1\} (6 Mal).

Binomialtest

Nicole H aus K spielt in ihrer Freizeit leidenschaftlich gerne Basketball. Sie besucht regelmässig das Training des BC Femina Bern.

Beim Freiwurf im Basketball handelt es sich um eine immer wiederkehrende Spielsituation. Aus diesem Grund kommt dem Freiwurftraining eine besondere Bedeutung zu. Aus Erfahrung weiss Nicole, dass sie im Training eine Freiwurftrefferquote von genau 40%40\% hat. Daraus leiten wir eine Trefferwahrscheinlichkeit von

p0=0.4p_0 = 0.4

für Trainingsfreiwürfe ab.

Nicole geht davon aus, dass sie unter Druck - zum Beispiel in einer Wettkampfsituation - eine höhere Trefferquote bei Freiwürfen hinkriegt als im Training. Ist dem wirklich so? Wie lässt sich diese Vermutung belegen?

Nullhypothese

Wir formulieren die beiden konkurrierenden Hypothesen zu ihrer Treffsicherheit:

Wir nehmen an, dass H0H_0 wahr ist. In einer Wettkampfsituation tritt Nicole n=5n=5 mal zu einem Freiwurf an und trifft k=3k=3 mal. Auf Grund der Nullhypothese sind im Mittel

E=np0=50.4=2E = n\cdot p_0 = 5\cdot0.4 = 2

Treffer zu erwarten. Ein Wert von kk nahe bei EE lässt wenig Zweifel an der Richtigkeit von H0H_0 aufkommen. Aber je stärker kk von EE abweicht, desto unhaltbarer wird H0H_0. Wir fassen alle Werte, die grösser oder gleich kk sind im kritischen Bereich KK zusammen:

K={k,k+1,,n}.K = \{k,k+1,\dots,n\}.

KK enthält also alle Werte, die H0H_0 schwächen und HAH_A stärken.

Exercise 1: Trefferquoten

Illustriere alle Wahrscheinlichkeiten k=0,,5k=0,\dots,5 für n=5n=5 und p=0.4p=0.4 in unten stehendem Diagramm.

Solution
Exercise 2: Fehler 1. Art

Berechne nun die Wahrscheinlichkeit αp\alpha_p dafür, dass wir bei nn Versuchen ein Ereignis aus dem kritischen Bereich KK erhalten, falls H0H_0 wahr ist. Im Falle unserer Spielerin nehmen wir also n=5n=5, K={3,4,5}K = \{3,4,5\} und p=0.4p=0.4.

Solution

P(X>2)=1k=02(5k)0.4k0.65k0.317P(X>2) = 1-\sum_{k=0}^2\binom{5}{k}0.4^k\cdot0.6^{5-k} \approx 0.317

Signifikanz

Definition 1: Signifikanzwert

Die Wahrscheinlichkeit, dass wir in nn Versuchen ein Ereignis aus dem kritischen Bereich erhalten, heisst Signifikanzwert αp\alpha_p oder kurz pp-Wert.

Note 2

Beim Higgs-Boson wurde ein pp-Wert von 5σ5\sigma zugrunde gelegt. Das bedeutete in diesem Fall, dass eine Wahrscheinlichkeit von ca. 10510^{-5}% besteht, dass dieses Signal bloss durch zufällige Hintergrundschwankungen (Rauschen etc.) zustande kam.

Je kleiner der pp-Wert ist, desto weniger spricht für die Nullhypothese H0H_0, wenn wir im Bereich des pp-Werts landen. Es stellt sich daher die Frage, wie klein αp\alpha_p sein muss, damit man H0H_0 verwirft? Sinnvolle Werte sind αp=0.05\alpha_p = 0.05 oder αp=0.01\alpha_p = 0.01.

Definition 2: signifikant

Ist αp0.05\alpha_p \leq 0.05, so heisst das beobachtete Ereignis signifikant. Ist αp0.01\alpha_p \leq 0.01, so kriegt das beobachtete Ereignis sogar das Prädikat hochsignifikant.

Note 3

55% gilt landläufig als Trennpunkt zwischen "kleinen" und "grossen" Wahrscheinlichkeiten. Die Hypothese H0H_0 ist nicht zwingend falsch, wenn αp0.05\alpha_p \leq 0.05 ist. Wenn H0H_0 jedoch richtig ist, dann haben wir ein Ereignis mit sehr kleiner Wahrscheinlichkeit beobachtet. Somit würde man eher die Alternative HAH_A der Nullhypothese H0H_0 vorziehen.

Im Beispiel unserer Spielerin hatten wir einen pp-Wert von αp=0.317\alpha_p = 0.317. Dieser reicht also bei Weitem nicht aus, um H0H_0 zu verwerfen und sie eine höhere Trefferquote in Wettkampfsituationen zu attestieren. Denn auch bei einer gleichbleibenden Trefferquote von p0=0.4p_0 = 0.4 würde Nicole in fast jedem dritten Spiel drei oder mehr von fünf Freiwürfen verwerten.

Exercise 3: Signifikanzwert

Sie verwertet

a) 44 oder 55 von 55 Freiwürfen,

b) 55 von 55 Freiwürfen.

Berechne die beiden Signifikanzwerte.

Solution

a) αp=k=45(5k)0.4k0.65k=1binomcdf(5,0.4,3)0.0879%\alpha_p = \sum_{k=4}^5\binom{5}{k}0.4^k\cdot0.6^{5-k} = 1-\texttt{binomcdf(5,0.4,3)} \approx 0.087 \approx 9\%

b) αp=0.45=0.010241%\alpha_p = 0.4^5=0.01024 \approx 1\%

Einzig für den letzten Fall ist αp0.05\alpha_p \leq 0.05. Dieses Ereignis ist also statistisch signifikant und wir müssten die Nullhypothese H0H_0 zugunsten der Alternative HAH_A verwerfen. Das heisst, wir könnten bei fünf Treffern davon ausgehen, dass unsere Spielerin in Wettkampfsituationen tatsächlich besser trifft als im Training.

Fehlerarten

Die Nullhypothese H0H_0 konkurriert mit der Alternativhypothese HAH_A. Müssen wir eine Entscheidung treffen und einer der beiden Hypothesen den Vorzug geben, so können uns Fehler unterlaufen.

Example 2: Fehler 2. Art

Angenommen, die Spielerin verwertet in einer Wettkampfsituation tatsächlich alle 55 Freiwürfe. Die Gefahr, dass wir die Nullhypothese H0H_0 fälschlicherweise verwerfen (einen Fehler erster Art begehen) ist mit αp=0.010\alpha_p = 0.010 so klein, dass wir sie in Kauf nehmen. Bei mindestens 44 Treffern hingegen ist die Wahrscheinlichkeit für einen Fehler der ersten Art mit αp=0.087\alpha_p = 0.087 zu gross, und wir bleiben bei der Nullhypothese H0H_0. Damit kann uns aber ein Fehler zweiter Art unterlaufen, den wir uns genauer anschauen wollen. Gehen wir davon aus, dass die Spielerin tatsächlich ein Wettkampftyp ist und in Wettkampfsituationen eine Trefferquote von p=0.6p=0.6 hat.

Exercise 4: Fehler 2. Art?

Illustriere alle Wahrscheinlichkeiten k=0,,5k = 0, \dots, 5 für p=0.6p = 0.6 in unten stehendem Diagramm.

Solution

Die Alternativhypothese HAH_A wäre somit wahr. Unsere Spielerin würde dann im Wettkampf mit der folgenden Wahrscheinlichkeit höchstens 44 von 55 Freiwürfen verwerten, was jedoch die Beibehaltung der Nullhypothese H0H_0 bedeutet:

k=04P(5,0.6,k)=binomcdf(5,0.6,4)0.922.\sum_{k=0}^4P(5,0.6,k) = \text{binomcdf}(5,0.6,4) \approx 0.922.

Die Wahrscheinlichkeit eines Fehlers zweiter Art ist also immens gross. Selbst wenn sie in Wettkampfsituationen eine Trefferquote von p=0.8p = 0.8 hätte, würde die wahre Alternativhypothese HAH_A mit einer Wahrscheinlichkeit von über 67% abgelehnt werden, wie aus der Abbildung hervorgeht.

Exercise 5: Fehler 2. Art mit p=0.8

Rechne den Fehler zweiter Art für p=0.8p=0.8 nach.

Solution

Die Wahrscheinlichkeit eines Fehlers zweiter Art unter der Annahme p=0.8p = 0.8 ist P(0X4)=k=04(5k)0.8k0.25k0.672P(0\leq X\leq4) = \sum_{k=0}^4\binom{5}{k}0.8^k\cdot0.2^{5-k} \approx 0.672

Will die Spielerin mit der Versuchsanordnung von 5 Freiwürfen im Wettkampf zeigen, dass sie ein Wettkampftyp ist, dann entsteht das folgende Problem. Um die Wahrscheinlichkeit eines Fehlers erster Art unter 5% zu bringen (Signifikanzniveau), muss Nicole wirklich gut treffen, damit wir die Nullhypothese H0H_0 ablehnen. Sie muss so gut treffen, dass die Wahrscheinlichkeit eines Fehlers zweiter Art sehr gross wird. Somit hat es eine wahre Alternativhypothese sehr, sehr schwer ...

Konfidenzintervalle

Wir möchten den pp-Wert unter 55% halten und gleichzeitig die Wahrscheinlichkeit eines Fehlers zweiter Art auf ein "erträgliches Mass" reduzieren.

Note 4

Für eine weitere Analyse ist nun folgende Tatsache wichtig. Es bezeichnen μ\mu bzw. σ\sigma wie üblich den Erwartungswert bzw. die Standardabweichung. Für eine Binomialverteilung - oder eine Normalverteilung - gilt, dass ca. 6666% aller Ereignisse im Intervall [μσ,μ+σ][\mu-\sigma,\mu+\sigma], 9595% in [μ2σ,μ+2σ][\mu-2\sigma,\mu+2\sigma] und 9999% in [μ3σ,μ+3σ][\mu-3\sigma,\mu+3\sigma] liegen.

Exercise 6: 🧩 100 Freiwürfe

Rechne das vorgestellte Beispiel für 100100 zugesprochene Freiwürfe. Wie viele Treffer muss die Spielerin mindestens erzielen, damit der pp-Wert unter 55% fällt und wir die Nullhypothese H0H_0 verwerfen?

Solution

Wir nehmen den Fehler einseitig, d.h, wir summieren alle Wahrscheinlichkeiten auf, bis wir die 9595% grad überschreiten. Ein Hinweis liefern die oben angegebenen Konfidenzintervalle. Für das 9595% berechnen wir E(X)=np=1000.4=40E(X) = np = 100\cdot0.4 = 40 und s=npq=1000.40.6=245s = \sqrt{npq} = \sqrt{100\cdot0.4\cdot0.6} = \sqrt{24} \approx 5 und kriegen die euphorische Schätzung E+2s=50E+2s = 50. Nun probieren wir aus:

  • binomcdf(100,0.4,50)0.983\texttt{binomcdf(100,0.4,50)} \approx 0.983
  • binomcdf(100,0.4,49)0.958\texttt{binomcdf(100,0.4,49)} \approx 0.958
  • binomcdf(100,0.4,48)0.936\texttt{binomcdf(100,0.4,48)} \approx 0.936

Also behalten wir die Nullhypothese für X48X \leq 48 Treffer bei und der Verwerfungsbereich ist K={49,50,51,,99,100}K=\{49,50,51,\dots,99,100\}. Die effektive Irrtumswahrscheinlichkeit, der Fehler 1. Art, beträgt α4.4%\alpha \approx 4.4\%.

Exercise 7: 25 Freiwürfe

In der Wettkampfsituation können bloss 25 Freiwürfe beobachtet werden. Ab wie vielen Treffern lehnst du die Nullhypothese bei einen Signifikanzniveau von αp=0.05\alpha_p = 0.05 ab? Ab welcher Trefferzahl lehnst du H0H_0 bei αp=0.01\alpha_p = 0.01 ab?

Wie gross wird jeweils die Wahrscheinlichkeit für einen Fehler der zweiten Art, wenn wir von einer tatsächlichen Wettkampftrefferwahrscheinlichkeit von p=0.6p=0.6 ausgehen?

Solution

Für ein Signifikanzniveau von 5%5\% findet man durch Ausprobieren im Bereich E+2s=250.4+2250.40.6=10+2615E+2s = 25\cdot0.4+2\cdot\sqrt{25\cdot0.4\cdot0.6} = 10+2\cdot\sqrt{6} \approx 15 den Wert binomcdf(25,0.4,14)0.966\texttt{binomcdf(25,0.4,14)} \approx 0.966. Der kritische Bereich ist K={15,16,17,,24,25}K=\{15,16,17,\dots,24,25\} und die effektive Irrtumswahrscheinlichkeit 3.43.4%. Der Fehler 2. Art ist daher binomcdf(25,0.6,14)0.42543%\texttt{binomcdf(25,0.6,14)} \approx 0.425 \approx 43\%.

Für ein Signifikanzniveau von αp=1%\alpha_p = 1\% ergibt sich: E+3s=10+3617E+3\cdot s = 10+3\cdot\sqrt{6} \approx 17. Wir finden binomcdf(25,0.4,16)0.996\texttt{binomcdf(25,0.4,16)} \approx 0.996 und dazu den Verwerfungsbereich {17,18,,25}\{17,18,\dots,25\}. Der Fehler 2. Art ist dann binomcdf(25,0.4,16)0.72673%\texttt{binomcdf(25,0.4,16)} \approx 0.726 \approx 73\%.

Exercise 8: 🧩 Tatsächlich 5\%

Der Spielerin tatsächliche Wettkampftrefferwahrscheinlichkeit liege bei p=0.5p=0.5. Wie viele Wettkampffreiwürfe musst du beobachten, damit die Wahrscheinlichkeit für einen Fehler der ersten und der zweiten Art jeweils höchstens 55% betragen?

Solution

Ausprobieren... Wir können für eine erste Einschätzung die zweiseitigen Konfidenzintervalle befragen. Für p1=0.4p_1=0.4 ist E+2s0.4n+nE+2s \approx 0.4n+\sqrt{n} und für p2=0.5p_2 = 0.5 E+2s0.5n+nE+2s \approx 0.5n+\sqrt{n}. Nun könnte man mit 0.4n+n=0.5nn0.4n+\sqrt{n} = 0.5n-\sqrt{n} die links- und rechtsseitige Überschneidung berechnen. Aus n=20nn = 20\sqrt{n} folgt n2=400nn(n400)=0n^2 = 400n\Leftrightarrow n(n-400) = 0 und wir suchten bei 400400. Für einen einseitigen Intervall suche wir also über 200200. Wir probieren und landen etwa bei 270270: binomcdf(270,0.4,121)0.95\texttt{binomcdf(270,0.4,121)} \approx 0.95 und binomcdf(270,0.5,121)0.05\texttt{binomcdf(270,0.5,121)} \approx 0.05

Zweiseitige Tests

Der oben vorgestellte Test ist einseitig. Betrachte nun auch zweiseitige Tests.

Exercise 9: Faire Münze?

Gegeben sei eine Münze. Die zu prüfende Nullhypothese sei, dass die Münze fair ist, dass also Kopf und Zahl gleich wahrscheinlich sind. Die Alternativhypothese sei, dass ein Ergebnis wahrscheinlicher ist, wobei nicht festgelegt wird, welches der beiden wahrscheinlicher sein soll. Das Zufallsexperiment zum Testen der Nullhypothese bestehe nun darin, dass die Münze zwanzig Mal geworfen wird. KK bezeichne die Anzahl der Würfe, die "Kopf" als Ergebnis liefern. Bei einer fairen Münze wäre zehnmal "Kopf" zu erwarten. Als Statistik wählt man daher sinnvollerweise

X=K10,X=|K-10|,

was in Worten die Abweichung vom Mittelwert "Kopf" einer fairen Münze ist. Angenommen, der Versuch liefert K=14K=14 mal das Ergebnis "Kopf", also X=4X=4. Unter der Nullhypothese ist die Anzahl der Köpfe binomialverteilt mit n=20n=20 und p=0.5p=0.5.

Berechne den pp-Wert. Ist die Münze wahrscheinlich "fair"; genauer: Wird die Nullhypothese verworfen? Wie sähe es für X=5X=5 aus? (Quelle Wikipedia p-Wert, 2014)

Solution

Da der Test symmetrisch zu E=10E=10 ist berechnen wir von unten her die Summe für kk Erfolge, bis wir den Wert 5%2=2.5%\frac{5\%}{2} = 2.5\% überschreiten. Es ist binomcdf(10,0.5,6)0.058\texttt{binomcdf(10,0.5,6)} \approx 0.058, die Abweichung von X=4X=4 also statistisch nicht signifikant. Für X=5X=5 sind wir bei 0.0210.021 und damit wäre die Abweichung signifikant. Der pp-Wert wäre hier 4.2%4.2\%.

Exercise 10: Cola Deckel

Der Deckel einer Cola-Falsche dient statt einer Münze als "Zufallsgenerator". Um zu testen, ob dieses Verfahren fair ist, wird der Deckel 7 mal geworfen und liefert

\cup\cup\cup\cup\cap\cup\cup

Formuliere H0H_0 und HAH_A und teste diese.

Solution

H0H_0: Deckel fair, p=0.5p=0.5. HAH_A: Deckel unfair, p0.5p \neq 0.5. Wir testen beidseitig: k=01(7k)0.570.062\sum_{k=0}^1\binom{7}{k}0.5^7 \approx 0.062, also ist die Abweichung nicht signifikant und wir behalten die Nullhypothese, dass der Deckel fair ist.

Exercise 11: Hellseherische Fähigkeiten

Ein statistischer Test zur Überprüfung von hellseherischen Fähigkeiten. Wir zeigen einer Person 25 Mal die Rückseite einer rein zufällig gewählten Spielkarte und fragen sie jeweils danach, zu welcher der vier Farben (Kreuz, Pik, Herz, Karo) die Karte gehört. Ab wie vielen Treffern können der Person bei einem Signifikanzniveau von αp=0.01\alpha_p = 0.01 hellseherische Fähigkeiten attestiert werden?

Solution

Wir suchen NN mit k=0N(25k)0.25k0.7525k>!99%\sum_{k=0}^N\binom{25}{k}0.25^k\cdot0.75^{25-k} \stackrel{!}{>} 99\%. Wir schätzen E+3s=250.25+3250.250.7513E+3s = 25\cdot0.25+3\cdot\sqrt{25\cdot0.25\cdot0.75} \approx 13. Es ist binomcdf(25,0.25,13)0.998\texttt{binomcdf(25,0.25,13)} \approx 0.998, binomcdf(25,0.25,12)0.996\texttt{binomcdf(25,0.25,12)} \approx 0.996 und binomcdf(25,0.25,11)0.989\texttt{binomcdf(25,0.25,11)} \approx 0.989. Also gilt man ab 1313 richtigen "Tipps" hochsignifikant hellseherisch.