Binomialtest
Was ist Randomness?
Der Zufall kann vielerorts beobachtet werden. Er ist keineswegs auf die Disziplin Mathematik beschränkt. Beispielsweise spricht man auch in der Philosophie in diesem Zusammenhang von Zufall, freiem Willen und Determinismus. In der Mathematik hat man es gewagt, den Zufall zu quantifizieren, was ihn übersichtlicher und greifbarer werden lässt. Wenn wir einen Würfel werfen, dann wissen wir im Allgemeinen zwar nicht, welche Zahl erscheinen wird, aber wir können einen Wert angeben - die Wahrscheinlichkeit für ein Ereignis - mit der wir das gewünschte Resultat erwarten.
Nun, eine beliebte Aufgabe von mir ist, Schülern als Hausaufgabe eine Münze 100 Mal werfen zu lassen und das Ergebnis zu notieren. Später wird die Folge darauf analysiert, ob sie wirklich zufällig entstanden ist oder nicht. Bevor wir uns überlegen, wie wir das machen könnten, betrachten wir zuerst zwei Bilder aus einer Lesung von Peter Coles. Eines wurde durch eine Zufallsfunktion erzeugt, das andere nicht.
Richtig, beim letzten Bild wurden die Punkte in den Abständen ausgelotet; das andere Bild ist das "Random Picture". Auffällig, aber auch charakteristisch, ist ein "Clumping", das man bei zufälligen Prozessen beobachten kann. Und genau das wird Schülern bei der Münze-Werfen-Hausaufgabe zum Verhängnis. Nämlich: Diejenigen, die bloss eine Folge von Kopf und Zahl niederschreiben und denken, sie könnten den Zufall simulieren, werden in der Regel zu wenig Clumping in ihren Folgen haben. Clumping bedeutet für das Münzewerfen, dass ihre Folgen zu wenige, lange Teilfolgen von Kopf bzw. Zahl zeigen.
Random-Test
Nun zur Frage, wie man eine solche Folge testen könnte? Im Folgenden möchte ich von und sprechen und nicht von Kopf und Zahl; einfach deshalb, weil dies übersichtlicher ist. Am einfachsten beginnt man mit dem Zählen von und . Bei Würfen sollten die beiden Ziffern in etwa gleicher Anzahl vorkommen. Danach könnte man Paare zählen: , , und müssten etwa in gleicher Anzahl auftauchen. Einer meiner Favoriten ist der Poker-Test, bei dem man die Sequenz in -er Pakete aufteilt und dann guckt, ob die entsprechenden Pakete mit den Poker-Wahrscheinlichkeiten überein stimmen. Bei einer binären Sequenz wie dieser könnte man gucken, wie viele Full-Houses vorkommen?
Eine gewisse Unsicherheit bleibt jedoch immer. Eine Sequenz, die all meinen Tests auf Muster erfolgreich standhält, ist dann "bloss" mit einer gewissen Wahrscheinlichkeit random. Absolute Sicherheit gibt es nicht.
Betrachten wir eine Münze (Kopf, Zahl; , ), die wir auf Fairness testen wollen. Bei Würfen zum Testzweck erwarten wir folgende Ausgänge und zugehörige Wahrscheinlichkeiten:
- mit
- mit
- mit
- mit
- mit
Lassen wir die Extremfälle (nur Kopf bzw. nur Zahl) weg. Dann erwarte ich, für eine faire Münze, über viele Testläufe à 4 Würfen, trotzdem öfter einen asymmetrischen Ausgang (8 Mal) als den intuitiv fairen (6 Mal).
Binomialtest
Nicole H aus K spielt in ihrer Freizeit leidenschaftlich gerne Basketball. Sie besucht regelmässig das Training des BC Femina Bern.
Beim Freiwurf im Basketball handelt es sich um eine immer wiederkehrende Spielsituation. Aus diesem Grund kommt dem Freiwurftraining eine besondere Bedeutung zu. Aus Erfahrung weiss Nicole, dass sie im Training eine Freiwurftrefferquote von genau hat. Daraus leiten wir eine Trefferwahrscheinlichkeit von
für Trainingsfreiwürfe ab.
Nicole geht davon aus, dass sie unter Druck - zum Beispiel in einer Wettkampfsituation - eine höhere Trefferquote bei Freiwürfen hinkriegt als im Training. Ist dem wirklich so? Wie lässt sich diese Vermutung belegen?
Nullhypothese
Wir formulieren die beiden konkurrierenden Hypothesen zu ihrer Treffsicherheit:
- Nullhypothese : (gleichbleibende Trefferwahrscheinlichkeit)
- Alternativhypothese : (höhere Trefferwahrscheinlichkeit)
Wir nehmen an, dass wahr ist. In einer Wettkampfsituation tritt Nicole mal zu einem Freiwurf an und trifft mal. Auf Grund der Nullhypothese sind im Mittel
Treffer zu erwarten. Ein Wert von nahe bei lässt wenig Zweifel an der Richtigkeit von aufkommen. Aber je stärker von abweicht, desto unhaltbarer wird . Wir fassen alle Werte, die grösser oder gleich sind im kritischen Bereich zusammen:
enthält also alle Werte, die schwächen und stärken.
Illustriere alle Wahrscheinlichkeiten für und in unten stehendem Diagramm.

Solution

Berechne nun die Wahrscheinlichkeit dafür, dass wir bei Versuchen ein Ereignis aus dem kritischen Bereich erhalten, falls wahr ist. Im Falle unserer Spielerin nehmen wir also , und .
Solution
Signifikanz
Die Wahrscheinlichkeit, dass wir in Versuchen ein Ereignis aus dem kritischen Bereich erhalten, heisst Signifikanzwert oder kurz -Wert.
Beim Higgs-Boson wurde ein -Wert von zugrunde gelegt. Das bedeutete in diesem Fall, dass eine Wahrscheinlichkeit von ca. besteht, dass dieses Signal bloss durch zufällige Hintergrundschwankungen (Rauschen etc.) zustande kam.
Je kleiner der -Wert ist, desto weniger spricht für die Nullhypothese , wenn wir im Bereich des -Werts landen. Es stellt sich daher die Frage, wie klein sein muss, damit man verwirft? Sinnvolle Werte sind oder .
Ist , so heisst das beobachtete Ereignis signifikant. Ist , so kriegt das beobachtete Ereignis sogar das Prädikat hochsignifikant.
gilt landläufig als Trennpunkt zwischen "kleinen" und "grossen" Wahrscheinlichkeiten. Die Hypothese ist nicht zwingend falsch, wenn ist. Wenn jedoch richtig ist, dann haben wir ein Ereignis mit sehr kleiner Wahrscheinlichkeit beobachtet. Somit würde man eher die Alternative der Nullhypothese vorziehen.
Im Beispiel unserer Spielerin hatten wir einen -Wert von . Dieser reicht also bei Weitem nicht aus, um zu verwerfen und sie eine höhere Trefferquote in Wettkampfsituationen zu attestieren. Denn auch bei einer gleichbleibenden Trefferquote von würde Nicole in fast jedem dritten Spiel drei oder mehr von fünf Freiwürfen verwerten.
Sie verwertet
a) oder von Freiwürfen,
b) von Freiwürfen.
Berechne die beiden Signifikanzwerte.
Solution
a)
b)
Einzig für den letzten Fall ist . Dieses Ereignis ist also statistisch signifikant und wir müssten die Nullhypothese zugunsten der Alternative verwerfen. Das heisst, wir könnten bei fünf Treffern davon ausgehen, dass unsere Spielerin in Wettkampfsituationen tatsächlich besser trifft als im Training.
Fehlerarten
Die Nullhypothese konkurriert mit der Alternativhypothese . Müssen wir eine Entscheidung treffen und einer der beiden Hypothesen den Vorzug geben, so können uns Fehler unterlaufen.
-
Fehler erster Art: Die Nullhypothese ist wahr, wird aber fälschlicherweise zugunsten der Alternativhypothese verworfen. Die Wahrscheinlichkeit, einen Fehler der ersten Art zu begehen, beträgt offensichtlich .
-
Fehler zweiter Art: Die Nullhypothese ist falsch, wird aber trotzdem beibehalten. Die Fehlerwahrscheinlichkeit zweiter Art hängt von der Wahl des Parameters ab. Das wollen wir uns an unserem Trefferquotenbeispiel veranschaulichen.
Angenommen, die Spielerin verwertet in einer Wettkampfsituation tatsächlich alle Freiwürfe. Die Gefahr, dass wir die Nullhypothese fälschlicherweise verwerfen (einen Fehler erster Art begehen) ist mit so klein, dass wir sie in Kauf nehmen. Bei mindestens Treffern hingegen ist die Wahrscheinlichkeit für einen Fehler der ersten Art mit zu gross, und wir bleiben bei der Nullhypothese . Damit kann uns aber ein Fehler zweiter Art unterlaufen, den wir uns genauer anschauen wollen. Gehen wir davon aus, dass die Spielerin tatsächlich ein Wettkampftyp ist und in Wettkampfsituationen eine Trefferquote von hat.
Illustriere alle Wahrscheinlichkeiten für in unten stehendem Diagramm.

Solution

Die Alternativhypothese wäre somit wahr. Unsere Spielerin würde dann im Wettkampf mit der folgenden Wahrscheinlichkeit höchstens von Freiwürfen verwerten, was jedoch die Beibehaltung der Nullhypothese bedeutet:
Die Wahrscheinlichkeit eines Fehlers zweiter Art ist also immens gross. Selbst wenn sie in Wettkampfsituationen eine Trefferquote von hätte, würde die wahre Alternativhypothese mit einer Wahrscheinlichkeit von über 67% abgelehnt werden, wie aus der Abbildung hervorgeht.
Rechne den Fehler zweiter Art für nach.
Solution
Die Wahrscheinlichkeit eines Fehlers zweiter Art unter der Annahme ist

Will die Spielerin mit der Versuchsanordnung von 5 Freiwürfen im Wettkampf zeigen, dass sie ein Wettkampftyp ist, dann entsteht das folgende Problem. Um die Wahrscheinlichkeit eines Fehlers erster Art unter 5% zu bringen (Signifikanzniveau), muss Nicole wirklich gut treffen, damit wir die Nullhypothese ablehnen. Sie muss so gut treffen, dass die Wahrscheinlichkeit eines Fehlers zweiter Art sehr gross wird. Somit hat es eine wahre Alternativhypothese sehr, sehr schwer ...
Konfidenzintervalle
Wir möchten den -Wert unter halten und gleichzeitig die Wahrscheinlichkeit eines Fehlers zweiter Art auf ein "erträgliches Mass" reduzieren.
Für eine weitere Analyse ist nun folgende Tatsache wichtig. Es bezeichnen bzw. wie üblich den Erwartungswert bzw. die Standardabweichung. Für eine Binomialverteilung - oder eine Normalverteilung - gilt, dass ca. aller Ereignisse im Intervall , in und in liegen.
Rechne das vorgestellte Beispiel für zugesprochene Freiwürfe. Wie viele Treffer muss die Spielerin mindestens erzielen, damit der -Wert unter fällt und wir die Nullhypothese verwerfen?
Solution
Wir nehmen den Fehler einseitig, d.h, wir summieren alle Wahrscheinlichkeiten auf, bis wir die grad überschreiten. Ein Hinweis liefern die oben angegebenen Konfidenzintervalle. Für das berechnen wir und und kriegen die euphorische Schätzung . Nun probieren wir aus:
Also behalten wir die Nullhypothese für Treffer bei und der Verwerfungsbereich ist . Die effektive Irrtumswahrscheinlichkeit, der Fehler 1. Art, beträgt .

In der Wettkampfsituation können bloss 25 Freiwürfe beobachtet werden. Ab wie vielen Treffern lehnst du die Nullhypothese bei einen Signifikanzniveau von ab? Ab welcher Trefferzahl lehnst du bei ab?
Wie gross wird jeweils die Wahrscheinlichkeit für einen Fehler der zweiten Art, wenn wir von einer tatsächlichen Wettkampftrefferwahrscheinlichkeit von ausgehen?
Solution
Für ein Signifikanzniveau von findet man durch Ausprobieren im Bereich den Wert . Der kritische Bereich ist und die effektive Irrtumswahrscheinlichkeit . Der Fehler 2. Art ist daher .
Für ein Signifikanzniveau von ergibt sich: . Wir finden und dazu den Verwerfungsbereich . Der Fehler 2. Art ist dann .
Der Spielerin tatsächliche Wettkampftrefferwahrscheinlichkeit liege bei . Wie viele Wettkampffreiwürfe musst du beobachten, damit die Wahrscheinlichkeit für einen Fehler der ersten und der zweiten Art jeweils höchstens betragen?
Solution
Ausprobieren... Wir können für eine erste Einschätzung die zweiseitigen Konfidenzintervalle befragen. Für ist und für . Nun könnte man mit die links- und rechtsseitige Überschneidung berechnen. Aus folgt und wir suchten bei . Für einen einseitigen Intervall suche wir also über . Wir probieren und landen etwa bei : und
Zweiseitige Tests
Der oben vorgestellte Test ist einseitig. Betrachte nun auch zweiseitige Tests.

Gegeben sei eine Münze. Die zu prüfende Nullhypothese sei, dass die Münze fair ist, dass also Kopf und Zahl gleich wahrscheinlich sind. Die Alternativhypothese sei, dass ein Ergebnis wahrscheinlicher ist, wobei nicht festgelegt wird, welches der beiden wahrscheinlicher sein soll. Das Zufallsexperiment zum Testen der Nullhypothese bestehe nun darin, dass die Münze zwanzig Mal geworfen wird. bezeichne die Anzahl der Würfe, die "Kopf" als Ergebnis liefern. Bei einer fairen Münze wäre zehnmal "Kopf" zu erwarten. Als Statistik wählt man daher sinnvollerweise
was in Worten die Abweichung vom Mittelwert "Kopf" einer fairen Münze ist. Angenommen, der Versuch liefert mal das Ergebnis "Kopf", also . Unter der Nullhypothese ist die Anzahl der Köpfe binomialverteilt mit und .
Berechne den -Wert. Ist die Münze wahrscheinlich "fair"; genauer: Wird die Nullhypothese verworfen? Wie sähe es für aus? (Quelle Wikipedia p-Wert, 2014)
Solution
Da der Test symmetrisch zu ist berechnen wir von unten her die Summe für Erfolge, bis wir den Wert überschreiten. Es ist , die Abweichung von also statistisch nicht signifikant. Für sind wir bei und damit wäre die Abweichung signifikant. Der -Wert wäre hier .
Der Deckel einer Cola-Falsche dient statt einer Münze als "Zufallsgenerator". Um zu testen, ob dieses Verfahren fair ist, wird der Deckel 7 mal geworfen und liefert
Formuliere und und teste diese.
Solution
: Deckel fair, . : Deckel unfair, . Wir testen beidseitig: , also ist die Abweichung nicht signifikant und wir behalten die Nullhypothese, dass der Deckel fair ist.
Ein statistischer Test zur Überprüfung von hellseherischen Fähigkeiten. Wir zeigen einer Person 25 Mal die Rückseite einer rein zufällig gewählten Spielkarte und fragen sie jeweils danach, zu welcher der vier Farben (Kreuz, Pik, Herz, Karo) die Karte gehört. Ab wie vielen Treffern können der Person bei einem Signifikanzniveau von hellseherische Fähigkeiten attestiert werden?
Solution
Wir suchen mit . Wir schätzen . Es ist , und . Also gilt man ab richtigen "Tipps" hochsignifikant hellseherisch.