Bedingte Wahrscheinlichkeit

Tulpen aus Amsterdam

Ein Hobbygärtner steckt $100$ Tulpenzwiebeln unter denselben Verhältnissen fachgerecht in den Boden. Nach einiger Zeit sind daraus $87$ herrliche Tulpen entstanden. Wenn wir das Ereignis

$A$ : Aus der Zwiebel entsteht eine Tulpe

festlegen, so gilt für dieses Ereignis $P(A) = 0.87$ .

Der Hobbygärtner hatte nicht alle $100$ Zwiebeln bei demselben Händler gekauft. $60$ Zwiebeln stammten von einem Grossversand aus Holland, die restlichen $40$ Zwiebeln waren ein Sonderangebot aus einem Gartencenter. Bei genauerer Untersuchung stellte der Gärtner fest, dass von den $13$ Zwiebeln, die keine Tulpe hervorbrachten, nur deren $3$ aus Holland kamen und die restlichen Zwiebeln aus dem Gartencenter stammten. Der Grossversand aus Holland lieferte also mit $57/60 = 95\%$ gute Zwiebeln, während das Sonderangebot aus dem Gartencenter nur $30/40 = 75\%$ gute Zwiebeln lieferte. Bezeichnet man das Ereignis

$B$ : Zwiebel kommt aus Holland,

so gilt $P(B) = 0.6$ . Die Wahrscheinlichkeit $P(A) = 0.87$ sollte man präziser als die unbedingte Wahrscheinlichkeit für das Entstehen einer schönen Tulpe bezeichnen. Mit dem Ereignis $B$ zusammen lässt sich nämlich eine bedingte Wahrscheinlichkeit für $A$ bilden: die Wahrscheinlichkeit, dass die Zwiebel eine Tulpe hervorbringt, unter der Bedingung, dass sie aus Holland stammt. Man bezeichnet diese bedingte Wahrscheinlichkeit mit $P(A|B)$ . Aus den obigen Überlegungen ergab sich $P(A|B) = 0.95$ .

Diese bedingte Wahrscheinlichkeit darf nicht verwechselt werden mit der Wahrscheinlichkeit, aus einer Kiste mit allen $100$ noch nicht eingepflanzten Zwiebeln eine gute, aus Holland kommende Zwiebel zu ziehen, denn diese Wahrscheinlichkeit ist $P(A\cap B) = 0.6\cdot 0.95 = 0.57$ . Man erkennt aber den Zusammenhang

P(A|B)\cdot P(B) = P(A\cap B).

Die Tabelle verdeutlicht noch einmal den Sachverhalt aus dem Beispiel.

	Holland	Gartencenter	Total
Tulpe	57	30	87
keine Tulpe	3	10	13
Total	60	40	100

Definition 1: Bedingte Wahrscheinlichkeit

Sei $B$ ein Ereignis mit $P(B) > 0$ . Die Wahrscheinlichkeit des Eintretens des Ereignisses $A$ unter der Bedingung, dass das Ereignis $B$ bereits eingetreten ist, oder kurz, die bedingte Wahrscheinlichkeit von $A$ unter der Bedingung $B$ wird definiert durch

P(A|B) := \frac{P(A\cap B)}{P(B)}.

Note 1

$P(A|B)$ ist die relative Wahrscheinlichkeit von $A$ bezüglich des reduzierten Stichprobenraumes $B$ .

Manchmal kann beim Berechnen von bedingten Wahrscheinlichkeiten auch der Satz von Bayes helfen. Hierbei handelt es sich grundsätzlich um eine Umformulierung der Definition.

Theorem 1

Mit den üblichen Bezeichnungen gilt:

P(A|B) = \frac{P(B|A)\cdot P(A)}{P(B)}

Proof

Nach Definition gilt $P(A|B) = \frac{P(A\cap B)}{P(B)}$ , woraus sofort $P(A\cap B) = P(A|B)\cdot P(B)$ folgt. Wir tauschen die Bezeichnungen und erhalten wegen $P(A\cap B) = P(B\cap A)$ die Gleichheit $P(A|B)\cdot P(B) = P(B|A)\cdot P(A)$ und damit den Satz.

Exercise 1: Tulpenzwiebeln

$A$ und $B$ seien die Ereignisse aus dem Einführungsbeispiel.

a) Zeige konkret $P(A) = P(A\cap B) + P(A\cap\overline{B})$ . Gilt die Formel allgemein?

b) Du siehst eine herrliche Tulpe. Bestimme die Wahrscheinlichkeit, dass die zugehörige Zwiebel in Holland gekauft wurde.

c) Interpretiere und berechne $P(\overline{A}|B)$ , $P(A|\overline{B})$ , $P(\overline{A}|\overline{B})$ , $P(B|A)$ , $P(B|\overline{A})$ und $P(\overline{B}|\overline{A})$ .

d) Bestätige $P(A)\cdot P(B|A) = P(B)\cdot P(A|B)$ .

e) Untersuche, ob die Aussage $P(A|B) = 1 - P(\overline{A}|B)$ im vorliegenden Fall richtig ist und ob diese "Gegenwahrscheinlichkeitsformel" allgemein stimmt.

Solution

a) $P(A) = 0.87 = 0.6\cdot 0.95 + 0.4\cdot 0.75 = P(A\cap B) + P(A\cap\overline{B})\quad$ ✓ Allgemein ist $P(A\cap B) + P(A\cap\overline{B}) = P(A|B)\cdot P(B) + P(A|\overline{B})\cdot P(\overline{B}) = P(A)$ . Da $B\cap\overline{B} = \emptyset$ und $B\cup\overline{B} = \Omega$ gilt, ist $P(B) + P(\overline{B}) = 1$ . Wir bestimmen also die Wahrscheinlichkeit des Eintretens von $A$ unter der Voraussetzung $B$ oder $\overline{B}$ .

b) $P(B|A) = \frac{P(B\cap A)}{P(A)} = \frac{0.57}{0.87} \approx 0.655$

c) $P(\overline{A}|B) = \frac{3}{60} = \frac{1}{20}$ : Es entsteht keine Tulpe unter der Voraussetzung, dass die Zwiebel aus Holland kommt. $P(A|\overline{B}) = \frac{30}{40} = \frac{3}{4}$ : Es entsteht eine Tulpe unter der Voraussetzung, dass die Zwiebel aus dem Gartencenter stammt. $P(\overline{A}|\overline{B}) = \frac{10}{40} = \frac{1}{4}$ : Keine Tulpe unter der Voraussetzung, dass die Zwiebel aus dem Gartencenter stammt. $P(B|\overline{A}) = \frac{3}{13}$ : Die Zwiebel stammt aus Holland unter der Voraussetzung, dass keine Tulpe entstand. $P(\overline{B}|\overline{A}) = \frac{10}{13}$ : Die Zwiebel stammt aus dem Gartencenter unter der Voraussetzung, dass keine Tulpe entsprossen ist.

d) Nach Definition ist $P(A|B) = \frac{P(A\cap B)}{P(B)}$ und $P(B|A) = \frac{P(B\cap A)}{P(A)}$ beziehungsweise $P(A|B)P(B) = P(A\cap B) = P(B\cap A) = P(B|A)P(A)$ , woraus unmittelbar die Behauptung folgt.

e) Ja; hier ist $0.95 = 1 - 0.05\quad$ ✓ Allgemein: Es gilt $P(B) = P(A\cap B) + P(\overline{A}\cap B)$ und daher $P(A|B) = \frac{P(A\cap B)}{P(B)} = \frac{P(B) - P(\overline{A}\cap B)}{P(B)} = 1 - \frac{P(\overline{A}\cap B)}{P(B)} = 1 - P(\overline{A}|B)$ .

Exercise 2: Lügendetektor

Ein Lügendetektor-Test entscheide in $90\%$ aller Fälle richtig, sowohl bei Schuldigen als auch bei Unschuldigen. Um Diebstähle zu reduzieren, entlässt eine grosse Firma alle Angestellten, die beim Test durchfallen. Vor der Entlassungsaktion seien $5\%$ aller Angestellten Diebe.

a) Bestimme, wie viele unter den Entlassenen tatsächlich Diebe sind; also die Wahrscheinlichkeit, dass ein Dieb vorliegt, falls der Test positiv ausgefallen ist.

b) Das Ergebnis unter a) mag erstaunen: Berechne für ein Sampleset von $1000$ Angestellten, wie vielen Dieben bzw. Nicht-Dieben ein positives Testergebnis attestiert wird.

c) Wie viel Prozent der negativ getesteten Angestellten sind tatsächlich Diebe?

Solution

a) $P(D|\text{pos}) = \frac{P(D\cap\text{pos})}{P(\text{pos})} = \frac{0.05\cdot 0.9}{0.05\cdot 0.9 + 0.95\cdot 0.1} \approx 32\%$

b) $45$ Diebe und $95$ Nicht-Diebe haben ein positives Testergebnis.

c) $P(D|\text{neg}) = \frac{0.05\cdot 0.1}{0.05\cdot 0.1 + 0.95\cdot 0.9} < 1\%$

Exercise 3: Tirolerhut

In einem bayerischen Touristenort sind zur Hochsaison dreimal so viele Touristen wie Einheimische. Touristen tragen zu $70\%$ einen Tirolerhut, Einheimische nur zu $25\%$ .

a) Frag einen Menschen mit Tirolerhut nach dem Weg. Bestimme die Wahrscheinlichkeit, dass der Mensch ein Einheimischer ist.

b) Frag einen Menschen ohne Tirolerhut nach dem Weg. Bestimme die Wahrscheinlichkeit, dass der Mensch ein Einheimischer ist.

Beurteile, was also günstiger ist, wenn du möglichst schnell eine verlässliche Wegauskunft haben möchtest.

Solution

Es gilt: $P(T) = 0.75$ , $P(E) = 0.25$ .

a) $P(E|\text{Hut}) = \frac{0.25\cdot 0.25}{0.25\cdot 0.25 + 0.75\cdot 0.7} \approx 10.6\%$

b) $P(E|\text{kein Hut}) = \frac{0.25\cdot 0.75}{0.25\cdot 0.75 + 0.75\cdot 0.3} \approx 45.5\%$

Am besten fragt man einen Menschen ohne Tirolerhut nach dem Weg.

Exercise 4: HIV-Test

Zur Beurteilung eines HIV-Tests seien folgende Werte gegeben. Die Wahrscheinlichkeit, dass jemand HIV-positiv ist, beträgt $1:10'000$ , also

P(H) := 0.01\%.

Ferner kenne man die Sensitivität (Wahrscheinlichkeit, dass der Test positiv anzeigt, falls die Person tatsächlich positiv ist):

P(p|H) = 99.9\%

und die Spezifität (Wahrscheinlichkeit, dass der Test negativ anzeigt, falls die Person tatsächlich negativ ist):

P(\overline{p}|\overline{H}) = 99.7\%.

a) Schätze zuerst die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person tatsächlich HIV-positiv ist, wenn sie ein positives Testresultat erhalten hat, und berechne sie anschliessend.

b) Berechne die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person tatsächlich negativ ist, unter der Voraussetzung, dass sie ein negatives Testergebnis erhalten hat.

Solution

a) $P(H|p) = \frac{0.0001\cdot 0.999}{0.0001\cdot 0.999 + 0.9999\cdot 0.003} \approx 0.032 = 3.2\%$

b) $P(\overline{H}|\overline{p}) = \frac{0.9999\cdot 0.997}{0.9999\cdot 0.997 + 0.0001\cdot 0.001} \approx 100\%$

Exercise 5: Sensitivität und Spezifität

Erkläre, was die Begriffe Sensitivität und Spezifität bedeuten. Kontrolliere die Aussagen mithilfe der Fachliteratur oder den weiteren Aufgaben.

Solution

Für ein Testverfahren: Sensitivität misst die Wahrscheinlichkeit, dass bei einer kranken Person das Resultat positiv ausfällt. Spezifität misst die Wahrscheinlichkeit, dass bei einer gesunden Person das Resultat negativ ausfällt.

Exercise 6: Selbsttest

Die Corona-Selbsttests haben eine sehr hohe Spezifität und eine hohe Sensitivität. Erkläre, was es für Patienten bedeutet, wenn ein medizinischer Test eine hohe Sensitivität, aber eine nicht so hohe Spezifität hat.

Solution

Eine nicht so hohe Spezifität bedeutet, dass falsch-positive Resultate nicht selten sind. Im Falle eines positiven Resultats empfiehlt sich ein weiterer oder ein anderer Test zur Verifizierung.

Exercise 7: Covid-Chart

Betrachte die Angaben zur Sensitivität und Spezifität auf dem folgenden Ausschnitt des Beipackzettels eines gängigen Tests:

a) Bestimme die Spezifität und die niedrigste der angegebenen Sensitivitäten.

Nimm an, dass aktuell $5\%$ der Bevölkerung an Covid-19 erkrankt sind.

b) Berechne die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person tatsächlich krank ist, wenn der Test positiv anzeigt (positiv prädiktiver Wert).

c) Berechne die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person tatsächlich gesund ist, wenn der Test negativ anzeigt (negativ prädiktiver Wert).

Angenommen, in einer Pandemie sind geschätzte $20\%$ der Bevölkerung an Covid-19 erkrankt. Es wird eine ganze Schule (ca. $1000$ Personen) getestet. Dabei wird eine Spezifität von $96\%$ und eine Sensitivität von $93\%$ angenommen (Worst-Case-Szenario für den vorliegenden Test).

d) Erstelle dazu eine geeignete Tabelle mit den Werten für die richtig positiven, die falsch positiven, die richtig negativen und die falsch negativen Tests. Wie viele kranke Personen werden nicht erkannt?

Solution

Berechnung für das erste aufgeführte Testverfahren:

a) Spezifität gemäss Chart: $100\%$ , niedrigste Sensitivität: $93\%$ .

b) $P(k|p) = \frac{0.05\cdot 0.93}{0.05\cdot 0.93 + 0.95\cdot 0.07} \approx 41\%$ .

c) $P(g|n) = \frac{0.95\cdot 1}{0.95\cdot 1 + 0.05\cdot 0} = 100\%$ .

d) Bei $1000$ Personen sind $200$ krank und $800$ gesund. Kranke ( $200$ ): $0.93\cdot 200 = 186$ richtig positiv, $14$ falsch negativ. Gesunde ( $800$ ): $0.96\cdot 800 = 768$ richtig negativ, $32$ falsch positiv.

	Test pos	Test neg	Total
krank	186	14	200
gesund	32	768	800
Total	218	782	1000

Es werden $14$ kranke Personen nicht erkannt.

Unabhängigkeit

Ein Ereignis $A$ heisst unabhängig von einem Ereignis $B$ , wenn das Eintreten von $B$ die Wahrscheinlichkeit für das Eintreten von $A$ nicht beeinflusst, d.h., wenn die Wahrscheinlichkeit von $A$ gleich der bedingten Wahrscheinlichkeit von $A$ unter der Bedingung $B$ ist. Diese Gleichung führt zu:

Definition 2: Unabhängigkeit

Zwei Ereignisse $A$ und $B$ heissen unabhängig, wenn

P(A\cap B) = P(A)\cdot P(B),

andernfalls heissen sie abhängig.

Exercise 8: Blutgruppen

Zur Untersuchung, ob die vier Hauptblutgruppen 0, A, B, AB vom Geschlecht abhängen, wurden die für Mitteleuropa gültigen Daten in der Tabelle erhoben. Untersuche, ob man daraus schliessen kann, dass die Verteilung der Blutgruppen vom Geschlecht unabhängig ist.

	0	A	B	AB	Total
weiblich	817	723	176	92	1808
männlich	862	765	191	106	1924
Total	1679	1488	367	198	3732

Solution

Die Wahrscheinlichkeit, dass man zufällig eine weibliche Person auswählt, ist $P(w) = \frac{1808}{3732}$ . Die Wahrscheinlichkeit für Blutgruppe B ist $P(B) = \frac{367}{3732}$ und $P(w\cap B) = \frac{176}{3732} \approx 0.04715$ . Es gilt $P(w)\cdot P(B) \approx 0.04760$ . Da die Werte sehr nah beieinander liegen, deutet dies auf Unabhängigkeit hin.

Exercise 9: Haarfarbe

Diskutiere, ob es eine Abhängigkeit zwischen Haarfarbe und Geschlecht gibt, aufgrund der Daten aus der Tabelle, die aus einem nordeuropäischen Land stammen.

	hellblond	dunkelblond	rot	schwarz
weiblich	195	121	38	67
männlich	110	199	236	59

Solution

Wir untersuchen die Merkmale "rot" und "männlich". Es gilt: Gesamtzahl Personen: $1025$ . $P(m) = \frac{604}{1025}$ , $P(r) = \frac{274}{1025}$ und $P(m\cap r) = \frac{236}{1025} \approx 0.2302$ . $P(m)\cdot P(r) \approx 0.5893\cdot 0.2673 \approx 0.1575$ . Da $P(m\cap r) \neq P(m)\cdot P(r)$ gilt, sind die Merkmale abhängig.

Exercise 10: Monty-Hall-Problem

Das folgende Problem ist bekannt unter dem Namen Monty-Hall-Problem oder Ziegenproblem.

In einer Gameshow befinden sich hinter drei Türen A, B und C ein Auto und zwei Ziegen. Die Kandidatin wählt Tür A, der Showmaster öffnet Tür C, hinter der sich eine Ziege befindet. Dann bietet er der Kandidatin an, eventuell auf Tür B zu wechseln. Entscheide, ob sie das tun sollte.

Solution

Wir notieren uns ein Schema mit der Situation, dass man zufällig Tor Nummer 1 gewählt hat, und belegen dann die verschiedenen Reaktionen des Moderators mit Wahrscheinlichkeiten. $A$ stehe für das Auto und $Z$ für die Ziege.

Tor 1	Tor 2	Tor 3
A	Z	Z
Z	A	Z
Z	Z	A

Die Kandidatin tippte auf Tor 1. Der Moderator wird nun im ersten Szenario eines der beiden Tore 2 oder 3 öffnen (beide enthalten Ziegen). In den beiden anderen Szenarien muss er zwingend das Tor mit der Ziege öffnen (Tor 3 bzw. Tor 2). Daher wird die Kandidatin im ersten Szenario bei einem Wechsel verlieren, in den beiden anderen Szenarien mit einem Wechsel jedoch gewinnen. Also sind ihre Gewinnchancen bei einem Wechsel $\frac{2}{3}$ . Ein Wechsel ist somit vorteilhaft.