Bedingte Wahrscheinlichkeit

Tulpen aus Amsterdam

Ein Hobbygärtner steckt 100100 Tulpenzwiebeln unter denselben Verhältnissen fachgerecht in den Boden. Nach einiger Zeit sind daraus 8787 herrliche Tulpen entstanden. Wenn wir das Ereignis

festlegen, so gilt für dieses Ereignis P(A)=0.87P(A) = 0.87.

Der Hobbygärtner hatte nicht alle 100100 Zwiebeln bei demselben Händler gekauft. 6060 Zwiebeln stammten von einem Grossversand aus Holland, die restlichen 4040 Zwiebeln waren ein Sonderangebot aus einem Gartencenter. Bei genauerer Untersuchung stellte der Gärtner fest, dass von den 1313 Zwiebeln, die keine Tulpe hervorbrachten, nur deren 33 aus Holland kamen und die restlichen Zwiebeln aus dem Gartencenter stammten. Der Grossversand aus Holland lieferte also mit 57/60=95%57/60 = 95\% gute Zwiebeln, während das Sonderangebot aus dem Gartencenter nur 30/40=75%30/40 = 75\% gute Zwiebeln lieferte. Bezeichnet man das Ereignis

so gilt P(B)=0.6P(B) = 0.6. Die Wahrscheinlichkeit P(A)=0.87P(A) = 0.87 sollte man präziser als die unbedingte Wahrscheinlichkeit für das Entstehen einer schönen Tulpe bezeichnen. Mit dem Ereignis BB zusammen lässt sich nämlich eine bedingte Wahrscheinlichkeit für AA bilden: die Wahrscheinlichkeit, dass die Zwiebel eine Tulpe hervorbringt, unter der Bedingung, dass sie aus Holland stammt. Man bezeichnet diese bedingte Wahrscheinlichkeit mit P(AB)P(A|B). Aus den obigen Überlegungen ergab sich P(AB)=0.95P(A|B) = 0.95.

Diese bedingte Wahrscheinlichkeit darf nicht verwechselt werden mit der Wahrscheinlichkeit, aus einer Kiste mit allen 100100 noch nicht eingepflanzten Zwiebeln eine gute, aus Holland kommende Zwiebel zu ziehen, denn diese Wahrscheinlichkeit ist P(AB)=0.60.95=0.57P(A\cap B) = 0.6\cdot 0.95 = 0.57. Man erkennt aber den Zusammenhang

P(AB)P(B)=P(AB).P(A|B)\cdot P(B) = P(A\cap B).

Die Tabelle verdeutlicht noch einmal den Sachverhalt aus dem Beispiel.

Holland Gartencenter Total
Tulpe 57 30 87
keine Tulpe 3 10 13
Total 60 40 100
Definition 1: Bedingte Wahrscheinlichkeit

Sei BB ein Ereignis mit P(B)>0P(B) > 0. Die Wahrscheinlichkeit des Eintretens des Ereignisses AA unter der Bedingung, dass das Ereignis BB bereits eingetreten ist, oder kurz, die bedingte Wahrscheinlichkeit von AA unter der Bedingung BB wird definiert durch

P(AB):=P(AB)P(B).P(A|B) := \frac{P(A\cap B)}{P(B)}.
Note 1

P(AB)P(A|B) ist die relative Wahrscheinlichkeit von AA bezüglich des reduzierten Stichprobenraumes BB.

Manchmal kann beim Berechnen von bedingten Wahrscheinlichkeiten auch der Satz von Bayes helfen. Hierbei handelt es sich grundsätzlich um eine Umformulierung der Definition.

Theorem 1

Mit den üblichen Bezeichnungen gilt:

P(AB)=P(BA)P(A)P(B)P(A|B) = \frac{P(B|A)\cdot P(A)}{P(B)}
Proof

Nach Definition gilt P(AB)=P(AB)P(B)P(A|B) = \frac{P(A\cap B)}{P(B)}, woraus sofort P(AB)=P(AB)P(B)P(A\cap B) = P(A|B)\cdot P(B) folgt. Wir tauschen die Bezeichnungen und erhalten wegen P(AB)=P(BA)P(A\cap B) = P(B\cap A) die Gleichheit P(AB)P(B)=P(BA)P(A)P(A|B)\cdot P(B) = P(B|A)\cdot P(A) und damit den Satz.

Exercise 1: Tulpenzwiebeln

AA und BB seien die Ereignisse aus dem Einführungsbeispiel.

a) Zeige konkret P(A)=P(AB)+P(AB)P(A) = P(A\cap B) + P(A\cap\overline{B}). Gilt die Formel allgemein?

b) Du siehst eine herrliche Tulpe. Bestimme die Wahrscheinlichkeit, dass die zugehörige Zwiebel in Holland gekauft wurde.

c) Interpretiere und berechne P(AB)P(\overline{A}|B), P(AB)P(A|\overline{B}), P(AB)P(\overline{A}|\overline{B}), P(BA)P(B|A), P(BA)P(B|\overline{A}) und P(BA)P(\overline{B}|\overline{A}).

d) Bestätige P(A)P(BA)=P(B)P(AB)P(A)\cdot P(B|A) = P(B)\cdot P(A|B).

e) Untersuche, ob die Aussage P(AB)=1P(AB)P(A|B) = 1 - P(\overline{A}|B) im vorliegenden Fall richtig ist und ob diese "Gegenwahrscheinlichkeitsformel" allgemein stimmt.

Solution

a) P(A)=0.87=0.60.95+0.40.75=P(AB)+P(AB)P(A) = 0.87 = 0.6\cdot 0.95 + 0.4\cdot 0.75 = P(A\cap B) + P(A\cap\overline{B})\quad ✓ Allgemein ist P(AB)+P(AB)=P(AB)P(B)+P(AB)P(B)=P(A)P(A\cap B) + P(A\cap\overline{B}) = P(A|B)\cdot P(B) + P(A|\overline{B})\cdot P(\overline{B}) = P(A). Da BB=B\cap\overline{B} = \emptyset und BB=ΩB\cup\overline{B} = \Omega gilt, ist P(B)+P(B)=1P(B) + P(\overline{B}) = 1. Wir bestimmen also die Wahrscheinlichkeit des Eintretens von AA unter der Voraussetzung BB oder B\overline{B}.

b) P(BA)=P(BA)P(A)=0.570.870.655P(B|A) = \frac{P(B\cap A)}{P(A)} = \frac{0.57}{0.87} \approx 0.655

c) P(AB)=360=120P(\overline{A}|B) = \frac{3}{60} = \frac{1}{20}: Es entsteht keine Tulpe unter der Voraussetzung, dass die Zwiebel aus Holland kommt. P(AB)=3040=34P(A|\overline{B}) = \frac{30}{40} = \frac{3}{4}: Es entsteht eine Tulpe unter der Voraussetzung, dass die Zwiebel aus dem Gartencenter stammt. P(AB)=1040=14P(\overline{A}|\overline{B}) = \frac{10}{40} = \frac{1}{4}: Keine Tulpe unter der Voraussetzung, dass die Zwiebel aus dem Gartencenter stammt. P(BA)=313P(B|\overline{A}) = \frac{3}{13}: Die Zwiebel stammt aus Holland unter der Voraussetzung, dass keine Tulpe entstand. P(BA)=1013P(\overline{B}|\overline{A}) = \frac{10}{13}: Die Zwiebel stammt aus dem Gartencenter unter der Voraussetzung, dass keine Tulpe entsprossen ist.

d) Nach Definition ist P(AB)=P(AB)P(B)P(A|B) = \frac{P(A\cap B)}{P(B)} und P(BA)=P(BA)P(A)P(B|A) = \frac{P(B\cap A)}{P(A)} beziehungsweise P(AB)P(B)=P(AB)=P(BA)=P(BA)P(A)P(A|B)P(B) = P(A\cap B) = P(B\cap A) = P(B|A)P(A), woraus unmittelbar die Behauptung folgt.

e) Ja; hier ist 0.95=10.050.95 = 1 - 0.05\quad ✓ Allgemein: Es gilt P(B)=P(AB)+P(AB)P(B) = P(A\cap B) + P(\overline{A}\cap B) und daher P(AB)=P(AB)P(B)=P(B)P(AB)P(B)=1P(AB)P(B)=1P(AB)P(A|B) = \frac{P(A\cap B)}{P(B)} = \frac{P(B) - P(\overline{A}\cap B)}{P(B)} = 1 - \frac{P(\overline{A}\cap B)}{P(B)} = 1 - P(\overline{A}|B).

Exercise 2: Lügendetektor

Ein Lügendetektor-Test entscheide in 90%90\% aller Fälle richtig, sowohl bei Schuldigen als auch bei Unschuldigen. Um Diebstähle zu reduzieren, entlässt eine grosse Firma alle Angestellten, die beim Test durchfallen. Vor der Entlassungsaktion seien 5%5\% aller Angestellten Diebe.

a) Bestimme, wie viele unter den Entlassenen tatsächlich Diebe sind; also die Wahrscheinlichkeit, dass ein Dieb vorliegt, falls der Test positiv ausgefallen ist.

b) Das Ergebnis unter a) mag erstaunen: Berechne für ein Sampleset von 10001000 Angestellten, wie vielen Dieben bzw. Nicht-Dieben ein positives Testergebnis attestiert wird.

c) Wie viel Prozent der negativ getesteten Angestellten sind tatsächlich Diebe?

Solution

a) P(Dpos)=P(Dpos)P(pos)=0.050.90.050.9+0.950.132%P(D|\text{pos}) = \frac{P(D\cap\text{pos})}{P(\text{pos})} = \frac{0.05\cdot 0.9}{0.05\cdot 0.9 + 0.95\cdot 0.1} \approx 32\%

b) 4545 Diebe und 9595 Nicht-Diebe haben ein positives Testergebnis.

c) P(Dneg)=0.050.10.050.1+0.950.9<1%P(D|\text{neg}) = \frac{0.05\cdot 0.1}{0.05\cdot 0.1 + 0.95\cdot 0.9} < 1\%

Exercise 3: Tirolerhut

In einem bayerischen Touristenort sind zur Hochsaison dreimal so viele Touristen wie Einheimische. Touristen tragen zu 70%70\% einen Tirolerhut, Einheimische nur zu 25%25\%.

a) Frag einen Menschen mit Tirolerhut nach dem Weg. Bestimme die Wahrscheinlichkeit, dass der Mensch ein Einheimischer ist.

b) Frag einen Menschen ohne Tirolerhut nach dem Weg. Bestimme die Wahrscheinlichkeit, dass der Mensch ein Einheimischer ist.

Beurteile, was also günstiger ist, wenn du möglichst schnell eine verlässliche Wegauskunft haben möchtest.

Solution

Es gilt: P(T)=0.75P(T) = 0.75, P(E)=0.25P(E) = 0.25.

a) P(EHut)=0.250.250.250.25+0.750.710.6%P(E|\text{Hut}) = \frac{0.25\cdot 0.25}{0.25\cdot 0.25 + 0.75\cdot 0.7} \approx 10.6\%

b) P(Ekein Hut)=0.250.750.250.75+0.750.345.5%P(E|\text{kein Hut}) = \frac{0.25\cdot 0.75}{0.25\cdot 0.75 + 0.75\cdot 0.3} \approx 45.5\%

Am besten fragt man einen Menschen ohne Tirolerhut nach dem Weg.

Exercise 4: HIV-Test

Zur Beurteilung eines HIV-Tests seien folgende Werte gegeben. Die Wahrscheinlichkeit, dass jemand HIV-positiv ist, beträgt 1:100001:10'000, also

P(H):=0.01%.P(H) := 0.01\%.

Ferner kenne man die Sensitivität (Wahrscheinlichkeit, dass der Test positiv anzeigt, falls die Person tatsächlich positiv ist):

P(pH)=99.9%P(p|H) = 99.9\%

und die Spezifität (Wahrscheinlichkeit, dass der Test negativ anzeigt, falls die Person tatsächlich negativ ist):

P(pH)=99.7%.P(\overline{p}|\overline{H}) = 99.7\%.

a) Schätze zuerst die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person tatsächlich HIV-positiv ist, wenn sie ein positives Testresultat erhalten hat, und berechne sie anschliessend.

b) Berechne die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person tatsächlich negativ ist, unter der Voraussetzung, dass sie ein negatives Testergebnis erhalten hat.

Solution

a) P(Hp)=0.00010.9990.00010.999+0.99990.0030.032=3.2%P(H|p) = \frac{0.0001\cdot 0.999}{0.0001\cdot 0.999 + 0.9999\cdot 0.003} \approx 0.032 = 3.2\%

b) P(Hp)=0.99990.9970.99990.997+0.00010.001100%P(\overline{H}|\overline{p}) = \frac{0.9999\cdot 0.997}{0.9999\cdot 0.997 + 0.0001\cdot 0.001} \approx 100\%

Exercise 5: Sensitivität und Spezifität

Erkläre, was die Begriffe Sensitivität und Spezifität bedeuten. Kontrolliere die Aussagen mithilfe der Fachliteratur oder den weiteren Aufgaben.

Solution

Für ein Testverfahren: Sensitivität misst die Wahrscheinlichkeit, dass bei einer kranken Person das Resultat positiv ausfällt. Spezifität misst die Wahrscheinlichkeit, dass bei einer gesunden Person das Resultat negativ ausfällt.

Exercise 6: Selbsttest

Die Corona-Selbsttests haben eine sehr hohe Spezifität und eine hohe Sensitivität. Erkläre, was es für Patienten bedeutet, wenn ein medizinischer Test eine hohe Sensitivität, aber eine nicht so hohe Spezifität hat.

Solution

Eine nicht so hohe Spezifität bedeutet, dass falsch-positive Resultate nicht selten sind. Im Falle eines positiven Resultats empfiehlt sich ein weiterer oder ein anderer Test zur Verifizierung.

Exercise 7: Covid-Chart

Betrachte die Angaben zur Sensitivität und Spezifität auf dem folgenden Ausschnitt des Beipackzettels eines gängigen Tests:

a) Bestimme die Spezifität und die niedrigste der angegebenen Sensitivitäten.

Nimm an, dass aktuell 5%5\% der Bevölkerung an Covid-19 erkrankt sind.

b) Berechne die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person tatsächlich krank ist, wenn der Test positiv anzeigt (positiv prädiktiver Wert).

c) Berechne die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person tatsächlich gesund ist, wenn der Test negativ anzeigt (negativ prädiktiver Wert).

Angenommen, in einer Pandemie sind geschätzte 20%20\% der Bevölkerung an Covid-19 erkrankt. Es wird eine ganze Schule (ca. 10001000 Personen) getestet. Dabei wird eine Spezifität von 96%96\% und eine Sensitivität von 93%93\% angenommen (Worst-Case-Szenario für den vorliegenden Test).

d) Erstelle dazu eine geeignete Tabelle mit den Werten für die richtig positiven, die falsch positiven, die richtig negativen und die falsch negativen Tests. Wie viele kranke Personen werden nicht erkannt?

Solution

Berechnung für das erste aufgeführte Testverfahren:

a) Spezifität gemäss Chart: 100%100\%, niedrigste Sensitivität: 93%93\%.

b) P(kp)=0.050.930.050.93+0.950.0741%P(k|p) = \frac{0.05\cdot 0.93}{0.05\cdot 0.93 + 0.95\cdot 0.07} \approx 41\%.

c) P(gn)=0.9510.951+0.050=100%P(g|n) = \frac{0.95\cdot 1}{0.95\cdot 1 + 0.05\cdot 0} = 100\%.

d) Bei 10001000 Personen sind 200200 krank und 800800 gesund. Kranke (200200): 0.93200=1860.93\cdot 200 = 186 richtig positiv, 1414 falsch negativ. Gesunde (800800): 0.96800=7680.96\cdot 800 = 768 richtig negativ, 3232 falsch positiv.

Test pos Test neg Total
krank 186 14 200
gesund 32 768 800
Total 218 782 1000

Es werden 1414 kranke Personen nicht erkannt.

Unabhängigkeit

Ein Ereignis AA heisst unabhängig von einem Ereignis BB, wenn das Eintreten von BB die Wahrscheinlichkeit für das Eintreten von AA nicht beeinflusst, d.h., wenn die Wahrscheinlichkeit von AA gleich der bedingten Wahrscheinlichkeit von AA unter der Bedingung BB ist. Diese Gleichung führt zu:

Definition 2: Unabhängigkeit

Zwei Ereignisse AA und BB heissen unabhängig, wenn

P(AB)=P(A)P(B),P(A\cap B) = P(A)\cdot P(B),

andernfalls heissen sie abhängig.

Exercise 8: Blutgruppen

Zur Untersuchung, ob die vier Hauptblutgruppen 0, A, B, AB vom Geschlecht abhängen, wurden die für Mitteleuropa gültigen Daten in der Tabelle erhoben. Untersuche, ob man daraus schliessen kann, dass die Verteilung der Blutgruppen vom Geschlecht unabhängig ist.

0 A B AB Total
weiblich 817 723 176 92 1808
männlich 862 765 191 106 1924
Total 1679 1488 367 198 3732
Solution

Die Wahrscheinlichkeit, dass man zufällig eine weibliche Person auswählt, ist P(w)=18083732P(w) = \frac{1808}{3732}. Die Wahrscheinlichkeit für Blutgruppe B ist P(B)=3673732P(B) = \frac{367}{3732} und P(wB)=17637320.04715P(w\cap B) = \frac{176}{3732} \approx 0.04715. Es gilt P(w)P(B)0.04760P(w)\cdot P(B) \approx 0.04760. Da die Werte sehr nah beieinander liegen, deutet dies auf Unabhängigkeit hin.

Exercise 9: Haarfarbe

Diskutiere, ob es eine Abhängigkeit zwischen Haarfarbe und Geschlecht gibt, aufgrund der Daten aus der Tabelle, die aus einem nordeuropäischen Land stammen.

hellblond dunkelblond rot schwarz
weiblich 195 121 38 67
männlich 110 199 236 59
Solution

Wir untersuchen die Merkmale "rot" und "männlich". Es gilt: Gesamtzahl Personen: 10251025. P(m)=6041025P(m) = \frac{604}{1025}, P(r)=2741025P(r) = \frac{274}{1025} und P(mr)=23610250.2302P(m\cap r) = \frac{236}{1025} \approx 0.2302. P(m)P(r)0.58930.26730.1575P(m)\cdot P(r) \approx 0.5893\cdot 0.2673 \approx 0.1575. Da P(mr)P(m)P(r)P(m\cap r) \neq P(m)\cdot P(r) gilt, sind die Merkmale abhängig.

Exercise 10: Monty-Hall-Problem

Das folgende Problem ist bekannt unter dem Namen Monty-Hall-Problem oder Ziegenproblem.

In einer Gameshow befinden sich hinter drei Türen A, B und C ein Auto und zwei Ziegen. Die Kandidatin wählt Tür A, der Showmaster öffnet Tür C, hinter der sich eine Ziege befindet. Dann bietet er der Kandidatin an, eventuell auf Tür B zu wechseln. Entscheide, ob sie das tun sollte.

Solution

Wir notieren uns ein Schema mit der Situation, dass man zufällig Tor Nummer 1 gewählt hat, und belegen dann die verschiedenen Reaktionen des Moderators mit Wahrscheinlichkeiten. AA stehe für das Auto und ZZ für die Ziege.

Tor 1 Tor 2 Tor 3
A Z Z
Z A Z
Z Z A

Die Kandidatin tippte auf Tor 1. Der Moderator wird nun im ersten Szenario eines der beiden Tore 2 oder 3 öffnen (beide enthalten Ziegen). In den beiden anderen Szenarien muss er zwingend das Tor mit der Ziege öffnen (Tor 3 bzw. Tor 2). Daher wird die Kandidatin im ersten Szenario bei einem Wechsel verlieren, in den beiden anderen Szenarien mit einem Wechsel jedoch gewinnen. Also sind ihre Gewinnchancen bei einem Wechsel 23\frac{2}{3}. Ein Wechsel ist somit vorteilhaft.