Beschreibende Statistik

0 Beschreibende Statistik

Die Statistik befasst sich mit dem Sammeln und Erheben von Daten, sowie deren Auswertung und Darstellung. Die Daten können z. B. aus einer Umfrage, einer Messreihe in einem Experiment oder einer medizinischen Studie stammen. Die Aufgabe der beschreibenden Statistik ist es dabei, die bereits erhobenen oder zusammengetragenen Daten grafisch darzustellen und mit sogenannten Lage- und Streuungsmassen zusammenzufassen und zu vergleichen.

Einstiegsaufgabe: Monatslöhne

Eine Firma bezahlt die folgenden Monatslöhne:

Monatslohn in CHF	Anzahl Mitarbeitende
3500	11
3600	6
3800	5
3950	2
4300	4
4500	9
6000	6
6500	10
9800	2
175'000	1

a) Wie gross ist der durchschnittliche Monatslohn?

b) Auf die Frage eines Reporters, wie es um die Löhne in seiner Firma stehe, antwortet der Firmenchef folgendermassen: Der durchschnittliche Monatslohn liegt bei uns über 7500 Franken. Kommentieren Sie die Antwort aus Sicht eines Angestellten der Firma.

c) Welche weiteren Fragen könnte der Reporter zum Lohn stellen, um ein besseres Bild von der Lohnpolitik der Firma zu erhalten?

0.1 Grundbegriffe der beschreibenden Statistik

Die Menge, über die eine statistische Aussage gemacht werden soll, wird als Grundgesamtheit bezeichnet. Wird die ganze Grundgesamtheit untersucht, wie zum Beispiel in der Einstiegsaufgabe oder bei einer Volkszählung, so spricht man von einer Vollerhebung. In diesem Fall geht es nur darum, die Daten darzustellen und mit Lage- und Streuungsmassen zusammenzufassen.

Oft ist es jedoch nicht möglich, die benötigten Daten aus der ganzen Grundgesamtheit zu erheben. Dann wird nur ein Teil der Grundgesamtheit untersucht: eine Stichprobe. Auch da geht es zunächst einmal darum, die Daten der Stichprobe geeignet darzustellen und zu beschreiben. Der Rückschluss von der Stichprobe auf die Grundgesamtheit ist dann die Aufgabe der schliessenden Statistik. Diese beruht wesentlich auf der Wahrscheinlichkeitsrechnung. In diesem Buch wird daher erst in Kapitel 7 (Testen von Hypothesen) eine Einführung in die schliessende Statistik gegeben.

Eine statistische Erhebung befasst sich immer mit bestimmten Eigenschaften der untersuchten Gegenstände oder Lebewesen. Die untersuchten Eigenschaften werden auch als Merkmale bezeichnet. Zu jedem Merkmal gibt es Zahlwerte oder Eigenschaften, die dieses Merkmal annehmen kann. Diese werden als Merkmalsausprägungen bezeichnet.

Beispiel: Bevölkerung Die Bevölkerung eines Landes bildet immer wieder die Grundgesamtheit bei statistischen Erhebungen. Typische Merkmale sind etwa: Geschlecht, Beruf, Körpergrösse, höchster Schulabschluss, Anzahl Kinder oder Augenfarbe. Die Merkmalsausprägungen des Merkmals «Geschlecht» sind dann: weiblich, männlich. Die Merkmalsausprägungen des Merkmals «Körpergrösse» sind (theoretisch) alle Werte zwischen 25 cm und 2.80 m.

Die Merkmale lassen sich grob in zwei Gruppen unterteilen: Merkmale, die durch Zahlen erfassbar sind und solche, die nicht durch Zahlen erfasst werden können.

Quantitative und qualitative Merkmale Es gibt zwei verschiedene Merkmalstypen, die sich jeweils in zwei Untertypen aufteilen lassen. Bei einem quantitativen Merkmal lassen sich die Merkmalsausprägungen anhand von Zahlen beschreiben. Können nur bestimmte Zahlen auftreten (z. B. nur ganze Zahlen), so heisst das quantitative Merkmal diskret. Können hingegen im Prinzip alle reellen Zahlenwerte in einem vorgegebenen Bereich auftreten, heisst das Merkmal stetig.

Bei einem qualitativen Merkmal sind die dazugehörigen Charakterisierungen Eigenschaften oder Namen, aber keine Zahlen. Qualitative Merkmale heissen ordinal, wenn sie in eine sinnvolle Reihenfolge gebracht werden können, andernfalls heissen sie nominal.

Beispiel: Merkmalstypen

Merkmal	Merkmalsausprägungen	Merkmalstypen
Augenfarbe	blau, grün, braun, ...	qualitativ, nominal
Körpergrösse	52 cm, 1.59 m, ...	quantitativ, stetig
Anzahl Geschwister	0, 1, 2, 3, ...	quantitativ, diskret
Fitness	schlecht, gut, ausgezeichnet	qualitativ, ordinal

0.2 Klasseneinteilung und Histogramm

Beispiel: Prüfungsnoten, Teil I Die Klasse 1A hat in der letzten Prüfung folgende Noten erzielt: 3.5, 2, 5, 3.5, 5.5, 5, 3.5, 3, 3.5, 5, 6, 4.5, 5, 6, 2.5, 4, 3, 4

Für die absoluten Häufigkeiten zählen Sie, wie oft die einzelnen Noten vorkommen. Für die entsprechenden relativen Häufigkeiten müssen Sie zusätzlich wissen, wie viele Noten insgesamt vorkommen. In diesem Fall sind es 18 Noten, d. h. $n=18$ . Die absoluten oder relativen Häufigkeiten von Merkmalsausprägungen können anhand eines Stabdiagramms anschaulich dargestellt werden.

Note	$H_i$	$h_i$	$h_i \approx$
1	0	0	0%
1.5	0	0	0%
2	1	1/18	5.6%
2.5	1	1/18	5.6%
3	2	1/9	11.1%
3.5	4	2/9	22.2%
4	2	1/9	11.1%
4.5	1	1/18	5.6%
5	4	2/9	22.2%
5.5	1	1/18	5.6%
6	2	1/9	11.1%

Wird nur ein Merkmal erfasst, dann werden die Daten in einer Urliste zusammengetragen. Die Anzahl der erfassten Daten heisst Stichprobenumfang und wird mit $n$ bezeichnet. Urliste = $a_1, a_2, a_3, ..., a_n$

Es können durchaus mehrere Daten die gleiche Merkmalsausprägung besitzen, z. B.: $a_1=a_5=a_8$ , $a_2=a_{16}, ...$ Jetzt kann gezählt werden, wie oft die verschiedenen Merkmalsausprägungen vorkommen und so die Häufigkeit der verschiedenen Merkmalsausprägungen bestimmt werden.

Absolute und relative Häufigkeit Die absolute Häufigkeit $H_i$ der Merkmalsausprägung $x_i$ gibt an, wie oft die Merkmalsausprägung $x_i$ in der Urliste vorkommt (Anzahl). Die relative Häufigkeit $h_i$ einer Merkmalsausprägung $x_i$ gibt an, wie gross der Anteil der Merkmalsausprägung $x_i$ an der gesamten Stichprobe vom Umfang $n$ ist: $h_i = \frac{H_i}{n}$

Es gilt: $H_1 + H_2 + ... + H_k = n$ bzw. $h_1 + h_2 + ... + h_k = 1$

Sollen verschiedene Datensätze mit unterschiedlichem Stichprobenumfang verglichen werden, so werden dazu oft die relativen Häufigkeiten verwendet.

Beispiel: Prüfungsvergleich In der Klasse 1A waren in der letzten Prüfung 8 von 18 Schülern ungenügend. In der Klasse 1B waren sogar 12 von 27 Schülern ungenügend. Vergleichen Sie die beiden absoluten Häufigkeiten, so sind in der Klasse 1B eineinhalbmal so viele Schüler ungenügend gewesen, wie in der Klasse 1A. Vergleichen Sie hingegen die relativen Häufigkeiten, so erkennen Sie, dass der Anteil der ungenügenden Noten in beiden Klassen gleich gross war, nämlich $\approx \frac{4}{9} \approx 44.4\%$ .

Klasseneinteilung und Histogramm Bei Merkmalen mit vielen Merkmalsausprägungen und insbesondere bei stetigen Merkmalen ist es oft nicht sinnvoll, die ganze Urliste anzugeben und die Häufigkeit für jede einzelne Merkmalsausprägung zu bestimmen. Stattdessen werden die Werte in Klassen zusammengefasst.

Beispiel: Körpergrösse, Teil I Eine Datenerhebung der Körpergrösse mit 50 Probanden ergibt folgende geordnete Urliste (Angaben in cm und auf ganze Zahlen gerundet):


144	150	154	154	160	160	162	162	163	164
164	164	164	165	167	167	168	169	170	171
171	172	172	172	173	174	175	176	176	176
177	178	179	179	182	182	182	182	184	185
186	187	187	188	189	190	190	191	193	205

Die Einteilung in sieben Klassen mit Klassenbreiten von je 10 cm ergibt die folgende Tabelle:

Körpergrösse (cm)	140-149	150-159	160-169	170-179	180-189	190-199	200-209
$H_i$	1	3	14	16	11	4	1

Beispiel: Körpergrösse, Teil III Einteilung in fünf Klassen mit unterschiedlichen Klassenbreiten:

Körpergrösse (cm)	Klassenbreite (cm)	$H_i$	Höhe = $H_i$ / Klassenbreite
140-159	20	4	2
160-169	10	14	14
170-179	10	16	16
180-189	10	11	10
190-209	20	5	2.5

Die Klassenbreite berechnet sich wie folgt: Die Klasse 140-149 beinhaltet wegen der Rundung auf ganze Zentimeter alle Körpergrössen im Intervall [139.5, 149.5) (in cm). Die Klassenbreite ist die Länge dieses Intervalls: 149.5 cm - 139.5 cm = 10 cm.

Für die Darstellung von in Klassen eingeteilten Daten wird meist ein Histogramm verwendet. Beim Histogramm wird jede Klasse durch ein Rechteck dargestellt, dessen Fläche proportional zur absoluten (oder relativen) Häufigkeit der in der Klasse zusammengefassten Werte ist.

Beispiel: Körpergrössen, Teil II Es werden direkt nebeneinander liegende Rechtecke von der Breite der jeweiligen Klasse gezeichnet. Besitzen alle Klassen dieselbe Klassenbreite, so entsprechen die absoluten (oder relativen) Häufigkeiten gerade den Rechteckshöhen. Es kann auch vorkommen, dass nicht alle Klassen die gleiche Breite aufweisen. In diesem Fall entsprechen die Rechteckshöhen nicht mehr den absoluten (oder relativen) Häufigkeiten, sondern sind proportional zum Quotienten $H_i$ /Klassenbreite.

Histogramm Um ein Histogramm zeichnen zu können, müssen die Daten zuerst in Klassen eingeteilt werden. Dabei darf die Anzahl Klassen weder zu gross noch zu klein sein. Wenn die Anzahl Klassen zu gross ist, wird der visuelle Eindruck von starken Schwankungen zwischen benachbarten Rechtecken dominiert, was den Blick auf das Wesentliche erschwert. Ist die Anzahl Klassen hingegen zu klein, gehen wesentliche Informationen verloren. Die folgende Faustregel hat sich in vielen Fällen bewährt: Bei $n$ erfassten Daten gilt für die Anzahl $k$ der Klassen: $k \approx \sqrt{n}$ aber $k \le 20$ .

Die Klassenbreiten geben die Breite der Rechtecke vor. Der Flächeninhalt eines Rechtecks entspricht der absoluten (oder relativen) Häufigkeiten der in der Klasse zusammengefassten Daten (Klassenhäufigkeit). Die Rechteckshöhe berechnet sich entsprechend der Formel: $Höhe = \frac{Klassenhäufigkeit}{Klassenbreite}$

Meist werden gleich breite Klassen gewählt, so dass die Höhen der Rechtecke proportional zu den Klassenhäufigkeiten sind.

Beispiel: Schädlingsbekämpfung Im Vorfeld seiner Maturarbeit über die prophylaktische Bekämpfung einer Insektenart, die gewissen Bäumen schadet, hat ein Schüler eine Stichprobe von 35 Bäumen ausgewählt und bei jedem Stamm die Anzahl der an ihm abgelegten Eier der untersuchten Insektenart bestimmt:


120	209	279	320	30	75	48	10	76	379
141	28	275	116	306	195	401	121	371	204
101	185	165	154	35	136	270	187	380	129
61	181	210	245	151

Die erhobenen Daten möchte er nun in einem Histogramm darstellen. Bei $n=35$ Daten, sollten $\sqrt{35} \approx 6$ Klassen gebildet werden. Die erhaltenen Werte liegen zwischen 10 und 401. Eine mögliche Klasseneinteilung mit sechs Klassen der Breite 70 ist:

Klasse	0-70	71-140	141-210	211-280	281-350	351-420
$H_i$	6	8	11	4	2	4

Viele Klassen (und somit kleine Klassenbreiten) geben ein detaillierteres Bild über die Verteilung der Daten. Wenige (dafür breitere) Klassen wirken hingegen ausgleichend, d. h. grössere Schwankungen werden geglättet. Dadurch geht aber auch Information verloren.

0.3 Lagemasse

Anstatt die Urliste anzugeben oder ein Histogramm zu zeichnen, können quantitative Daten auch durch Masszahlen zusammengefasst werden. Dazu braucht es mindestens zwei Grössen, ein Mass für die Lage und ein Mass für die Streuung. Das wohl bekannteste Lagemass ist der Mittelwert (arithmetische Mittel), den Sie zum Beispiel als Notendurchschnitt in der Schule kennen.

Beispiel: Prüfungsnoten, Teil II Sie betrachten wieder die Prüfungsnoten der Klasse 1A (S. 3 Prüfungsnoten, Teil I). Um den Durchschnitt zu berechnen, müssen Sie zuerst die Anzahl Noten bestimmen. In diesem Fall sind es $n=18$ Noten. Sie erhalten den Durchschnitt, indem Sie alle Noten addieren und anschliessend durch die Anzahl $n$ dividieren. $\frac{3.5+2+5+3.5+5.5+5+3.5+3+3.5+5+6+4.5+5+6+2.5+4+3+4}{18} = \frac{149}{36} \approx 4.1$

Eine etwas übersichtlichere Variante zur Berechnung des Durchschnitts führt über die absoluten Häufigkeiten $H_i$ . Damit können Sie den Durchschnitt folgendermassen berechnen: $\frac{1\cdot2 + 1\cdot2.5 + 2\cdot3 + 4\cdot3.5 + 2\cdot4 + 1\cdot4.5 + 4\cdot5 + 1\cdot5.5 + 2\cdot6}{18} = \frac{149}{36} \approx 4.1$

Arithmetisches Mittel Das arithmetische Mittel (Mittelwert, Durchschnitt) der $n$ Zahlen $x_1, x_2, x_3, ..., x_n$ einer Urliste ist definiert durch: $\overline{x} = \frac{x_1 + x_2 + x_3 + ... + x_n}{n} = \frac{1}{n} \cdot \sum_{i=1}^{n} x_i$

Kommen einige der Zahlen in der Liste mehrmals vor, so ist es oft bequemer, das arithmetische Mittel anhand der Häufigkeiten zu bestimmen. Dabei ist $H_i$ die absolute Häufigkeit und $h_i$ die relative Häufigkeit der Merkmalsausprägung $x_i$ . $\overline{x} = \frac{H_1 \cdot x_1 + H_2 \cdot x_2 + ... + H_k \cdot x_k}{n} = \frac{1}{n} \cdot \sum_{i=1}^{k} H_i \cdot x_i = \sum_{i=1}^{k} h_i \cdot x_i$

Der Durchschnitt ist nicht die einzige Möglichkeit, ein «Zentrum» in der Urliste zu definieren. Stattdessen können Sie auch den häufigsten Wert als «Zentrum» definieren oder denjenigen Wert, der genau in der Mitte der geordneten Urliste liegt.

Modus Derjenige Wert, der am häufigsten in einer Liste vorkommt, heisst Modus oder Modalwert (Mehrzahl: Modi). Der Modus muss nicht eindeutig sein, es können mehrere Modi vorkommen. Der Modus ist vor allem bei qualitativen Merkmalen sinnvoll. Wenn Sie beispielsweise eine Urliste von natürlichen Haarfarben haben, so ist der Modus die am häufigsten vorkommende Haarfarbe. Die Berechnung eines arithmetischen Mittels ist dagegen in diesem Beispiel gar nicht möglich.

Median Sind die Zahlen $x_1, x_2, ..., x_n$ einer Zahlenliste der Grösse nach geordnet und ist $n$ ungerade, so heisst der Wert in der Mitte der Liste Median (oder Zentralwert). Ist $n$ gerade, so ist der Median das arithmetische Mittel der beiden benachbarten Werte in der Mitte der Liste.

Weitere Lagemasse sind das Minimum und das Maximum:

Minimum und Maximum Das Minimum $x_{min}$ ist der kleinste auftretende Wert in der Urliste. Das Maximum $x_{max}$ ist der grösste auftretende Wert in der Urliste.

Beispiel: Körpergrösse, Teil IV Bei diesem Beispiel erhalten Sie aus der Urliste (S. 4 Körpergrösse, Teil I) den Mittelwert $\overline{x}=173.9$ cm. Die folgende Tabelle zeigt die Einteilung in sieben Klassen mit Klassenbreiten von je 10 cm und die dazugehörigen Klassenmitten.

Körpergrösse (cm)	Klassenmitte	absolute Häufigkeit
140-149	144.5	1
150-159	154.5	3
160-169	164.5	14
170-179	174.5	16
180-189	184.5	11
190-199	194.5	4
200-209	204.5	1

Der Mittelwert berechnet sich dann wie immer: $\frac{144.5\cdot1 + 154.5\cdot3 + 164.5\cdot14 + 174.5\cdot16 + 184.5\cdot11 + 194.5\cdot4 + 204.5\cdot1}{50} = 174.3 \text{ cm}$

Ein Mittelwert kann auch berechnet werden, wenn die Daten bereits in Klassen eingeteilt worden sind. Es wird dann mit den jeweiligen Klassenmitten gerechnet. Die Klassenmitte einer Klasse entspricht dem arithmetischen Mittel des kleinsten und des grössten möglichen Werts der Klasse. Der mithilfe der Klassenmitten berechnete Mittelwert kann allerdings vom Mittelwert der Urliste abweichen, wie das folgende Beispiel zeigt.

Beispiel: Schrauben, Teil I Eine Firma muss Schrauben einkaufen. Sie bekommt von zwei Herstellern je eine Mustersendung mit je 90 Schrauben. Diese werden vermessen. Die folgende Tabelle fasst die Ergebnisse zusammen.

Länge mm	79.3	79.4	79.5	79.6	79.7	79.8	79.9	80.0	80.1	80.2	80.3	80.4	80.5	80.6	80.7
Firma A: H	0	0	0	0	0	1	17	45	21	5	0	0	0	0	1
Firma B: H	1	1	5	6	7	6	9	14	10	9	8	6	3	3	2

Bei der Auswertung der Daten stellt die Firma fest, dass die Schrauben beider Hersteller im Durchschnitt die gleiche Länge haben, nämlich $\overline{x} \approx 80.021$ cm. Auch der Modus und der Median sind bei den beiden Herstellern gleich. Allerdings ist aus der Tabelle ersichtlich, dass beim Hersteller A die Schraube der Länge 80.7 mm einen einzelnen Ausreisser darstellt. Lassen Sie diesen Wert bei der Berechnung des Mittelwerts weg, so erhalten Sie $\overline{x}_A^* \approx 80.013$ mm. Der Modus und der Median bleiben hingegen unverändert. Es zeigt sich, dass der Hersteller A qualitativ besser ist, da dessen Schraubenlängen tendenziell näher beim Mittelwert liegen als beim Hersteller B. Oder mit anderen Worten, die Schraubenlängen beim Hersteller A streuen weniger stark.

Bemerkung: Ein Beobachtungswert, der scheinbar nicht zu den übrigen Beobachtungswerten in der Stichprobe (Urliste) passt, wird als Ausreisser bezeichnet. Im allgemeinen handelt es sich dabei um einen besonders grossen oder sehr kleinen Merkmalswert. Ausreisser wirken sich oft stark auf das arithmetische Mittel und auf die Streuungsmasse aus. Andere Masszahlen wie der Median sind dagegen nicht anfällig für Änderungen durch einzelne Ausreisser, sie sind robust.

Beispiel: Prüfungsnoten, Teil IV In der Notenliste der Klasse 1A (S. 3 Prüfungsnoten, Teil 1) können die folgenden Lagemasse angegeben werden:

Minimum: $x_{min} = 2$
Maximum: $x_{max} = 6$
Durchschnitt: $\overline{x} = 4.1$
Modi: 3.5 und 5 (je mit der Häufigkeit 4)
Median: $\tilde{x} = 4$

Der Median besagt, dass es in diesem Beispiel gleich viele Schüler gibt, die eine Note $\le 4$ erhalten haben, wie Schüler, die eine Note $\ge 4$ erhalten haben.

0.4 Streuungsmasse

Die Lagemasse sagen etwas über Lage oder Position der Daten auf einer Skala aus. Sie geben jedoch keine Auskunft darüber, wie diese Daten streuen oder auf einer Skala zwischen dem Minimum und dem Maximum verteilt sind. Die Streuungsmasse hingegen geben Auskunft darüber, wie stark die Werte von ihrem Mittelwert abweichen. Ein einfaches Streuungsmass ist die Spannweite.

Spannweite Sind $x_{max}$ der grösste und $x_{min}$ der kleinste Wert in einer Urliste, so wird die Differenz als Spannweite R der Urliste bezeichnet: $R = x_{max} - x_{min}$

Die Spannweite gibt die Länge des gesamten Bereichs an, über den sich die Werte in der Urliste erstrecken. Allerdings sagt die Spannweite R nichts darüber aus, ob der Grossteil der Datenwerte um den Mittelwert konzentriert ist, ob die Werte gleichmässig über die ganze Spannweite verstreut sind oder ob sich die Werte am einen oder anderen Ende häufen.

Eine weitere Möglichkeit, etwas über die Streuung der Daten auszusagen, wäre die durchschnittliche Abweichungen der einzelnen Datenwerte vom Mittelwert zu bestimmen. Für einen Datenwert $x_i$ und den Mittelwert $\overline{x}$ beträgt diese Abweichung $x_i - \overline{x}$ . Berechnen Sie nun den Durchschnitt all dieser Abweichungen vom Mittelwert, so erhalten Sie: $\frac{1}{n} \cdot \sum_{i=1}^{n} (x_i - \overline{x}) = \frac{1}{n} \cdot \sum_{i=1}^{n} x_i - \frac{1}{n} \cdot \sum_{i=1}^{n} \overline{x} = \overline{x} - \frac{1}{n} \cdot n \cdot \overline{x} = \overline{x} - \overline{x} = 0$

Der Grund für dieses Ergebnis ist, dass diese Abweichungen $x_i - \overline{x}$ sowohl positiv als auch negativ werden können und dass sich die positiven und die negativen Abweichungen insgesamt gegenseitig aufheben. Dies könnte vermieden werden, wenn stattdessen die Beträge der Abweichungen verwendet würden, sodass alle Beiträge positiv sind und sich deshalb nicht gegenseitig aufheben könnten. Das Rechnen mit Beträgen ist sehr umständlich. Stattdessen werden üblicherweise die (ebenfalls positiven) Quadrate $(x_i - \overline{x})^2$ der Abweichungen verwendet. In der Praxis hat sich gezeigt, dass bei einer Stichprobe für die Rückschlüsse auf die Grundgesamtheit besser durch $n-1$ statt durch $n$ dividiert wird. Dies führt auf die empirische Varianz.

Empirische Varianz Die empirische Varianz $s^2$ der $n$ Zahlen $x_1, x_2, ..., x_n$ einer Grundgesamtheit mit Mittelwert $\overline{x}$ ist wie folgt definiert: $s^2 = \frac{(x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + ... + (x_n - \overline{x})^2}{n-1} = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \overline{x})^2$

Sind von den $n$ Zahlen die unterschiedlichen Werte $x_1, x_2, ..., x_k$ der Merkmalsausprägung mit den dazugehörigen absoluten Häufigkeiten $H_i$ bekannt, so berechnet sich die empirische Varianz $s^2$ analog: $s^2 = \frac{H_1 \cdot (x_1 - \overline{x})^2 + H_2 \cdot (x_2 - \overline{x})^2 + ... + H_k \cdot (x_k - \overline{x})^2}{n-1} = \frac{1}{n-1} \sum_{i=1}^{k} H_i(x_i - \overline{x})^2$

Weil hier die Abweichungen der Datenwerte vom Mittelwert quadriert werden, hat die Varianz nicht die Einheit der Datenwerte. Sind die Datenwerte beispielsweise Schraubenlängen in Millimeter, so hat die Varianz die Einheit mm². Würden die Schraubenlängen nun in cm angegeben, dann wäre die Streuung zehnmal kleiner, während die Varianz hundertmal kleiner werden würde. Ein besseres Streuungsmass erhalten Sie durch Ziehen der Wurzel, was problemlos möglich ist, da die Varianz immer positiv ist.

Empirische Standardabweichung Die empirische Standardabweichung $s$ der $n$ Zahlen $x_1, x_2, ..., x_n$ einer Grundgesamtheit mit Mittelwert $\overline{x}$ ist wie folgt definiert: $s = \sqrt{\frac{(x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + ... + (x_n - \overline{x})^2}{n-1}} = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \overline{x})^2}$

Sind von den $n$ Zahlen die unterschiedlichen Werte $x_1, x_2, ..., x_k$ der Merkmalsausprägung mit den dazugehörigen absoluten Häufigkeiten $H_i$ bekannt, so gilt: $s = \sqrt{\frac{H_1 \cdot (x_1 - \overline{x})^2 + H_2 \cdot (x_2 - \overline{x})^2 + ... + H_k \cdot (x_k - \overline{x})^2}{n-1}} = \sqrt{\frac{1}{n-1} \sum_{i=1}^{k} H_i(x_i - \overline{x})^2}$

Beispiel: Schrauben, Teil II Jetzt sind Sie in der Lage, die Streuung der Schraubenlängen zu berechnen. Für den Durchschnitt bekommen Sie bei den Herstellern A und B jeweils $\overline{x} \approx 80.021$ mm (S. 9 Schrauben, Teil I). Die Varianz und die Streuung beim Hersteller A berechnen Sie nun mit den obigen Formeln: $s_A^2 = 0.012 \text{ mm}^2$ und $s_A = 0.11 \text{ mm}$ . Lassen Sie den Ausreisser bei den Schraubenlängen des Herstellers A weg, so erhalten Sie $\overline{x}_A^* = 80.013$ mm und für die Streuung die Werte $(s_A^*)^2 = 0.0069 \text{ mm}^2$ und $s_A^* = 0.083 \text{ mm}$ . Das Beispiel zeigt, dass die Standardabweichung stark auf Ausreisser reagiert. Für die Varianz und die Streuung des Herstellers B erhalten Sie $s_B^2 = 0.10 \text{ mm}^2$ und $s_B = 0.32 \text{ mm}$ . Aus $s_A < s_B$ folgt, dass die Schraubenlängen beim Hersteller A tendenziell näher am Mittelwert liegen als beim Hersteller B.

0.5 Boxplot

Um genauere Aussagen über die Verteilung von Daten machen zu können, reichen Lage- und Streuungsmasse nicht aus. Ein Boxplot bietet eine schnelle und differenzierte Übersicht über die Verteilung der Datenwerte, die weniger Platz benötigt als ein Histogramm. Insbesondere eignet sich der Boxplot gut, die Verteilungen mehrerer Datensätze miteinander zu vergleichen. Dazu wird die Liste von Datenwerten der Grösse nach geordnet. Der Median (Zentralwert) teilt diese geordnete Liste der Datenwerte in eine untere und eine obere Teilliste. Nun werden die beiden Teillisten weiter unterteilt:

Das untere Quartil (1. Quartil $q_1$ ) ist der Median der unteren Teilliste.
Das obere Quartil (3. Quartil $q_3$ ) ist der Median der oberen Teilliste.
Der Median (Zentralwert) entspricht dem mittleren Quartil (2. Quartil $q_2$ ).

Die Idee besteht darin, die Datenwerte in vier Klassen aufzuteilen:

Ein Viertel der Werte liegt unterhalb des unteren Quartils $q_1$ .
Ein Viertel der Werte liegt zwischen dem unteren Quartil $q_1$ und dem Median $\tilde{x}$ .
Ein Viertel der Werte liegt zwischen dem Median und dem oberen Quartil $q_3$ .
Ein Viertel der Werte liegt oberhalb des oberen Quartils $q_3$ .

Quartilsdifferenz Die Differenz aus dem oberen und dem unteren Quartil $r = q_3 - q_1$ wird als Quartilsdifferenz bezeichnet. Die Quartilsdifferenz ist ein Streuungsmass. 50% der Werte liegen zwischen $q_1$ und $q_3$ . Die Quartilsdifferenz ist, im Gegensatz zur Spannweite und zur Standardabweichung, nicht sehr empfindlich gegenüber Ausreissern.

Boxplot Ein Boxplot (Kastenschaubild) fasst die fünf Lageparameter Minimum, Maximum, Median, unteres Quartil und oberes Quartil einer Datenliste in einem Diagramm zusammen. Ein Boxplot besteht immer aus einem Rechteck (Box) und zwei Linien mit je einem Schlussstrich, die dieses Rechteck verlängern. Diese Linien werden als «Antenne» oder «Whisker» bezeichnet und an ihnen lässt sich die Spannweite sofort ablesen. Die Box gibt an, in welchem Bereich die mittleren 50% der Daten liegen und der rote Strich in der Box bezeichnet den Median. Aufgrund des einfachen Aufbaus von Boxplots werden diese hauptsächlich verwendet, um sich schnell einen Überblick über bestehende Daten zu verschaffen.

Beispiel: Schrauben, Teil III Die erhaltenen Daten der Schraubenlängenmessungen können dank den Boxplots einfach miteinander verglichen werden.

Hersteller	$x_{min}$	$q_1$	$q_2$	$q_3$	$x_{max}$
A	79.8	80.0	80.0	80.1	80.7
A (ohne Ausreisser)	79.8	80.0	80.0	80.1	80.2
B	79.3	79.8	80.0	80.25	80.7

Oberster Boxplot: Hersteller A, wobei $q_1$ und $q_2$ zusammenfallen.
Mittlerer Boxplot: Hersteller A ohne den Ausreisser. Es ist üblich, Ausreisser als separate Punkte ausserhalb des Boxplots darzustellen. Als Ausreisser gelten Werte, die um mehr als das Anderthalbfache der Quartilsdifferenz vom näherliegenden Quartil abweichen.
Unterster Boxplot: Hersteller B.

Anhand der Boxplots sehen Sie sofort, dass die Schraubenlängen des Herstellers A viel weniger streuen als jene des Herstellers B.

Beispiel: Tageshöchsttemperaturen Es wurden an verschiedenen Orten die Tageshöchsttemperaturen gemessen, ausgewertet und als Boxplot dargestellt. Aus der Grafik können Sie folgendes ablesen:

Die gemessenen Werte liegen zwischen $x_{min}=11^\circ C$ und $x_{max}=18^\circ C$ . Die Spannweite beträgt somit $R=7^\circ C$ .
In 50% der Orte liegt der Tageshöchstwert zwischen $q_1=12^\circ C$ und $q_3=16^\circ C$ .
25% der Werte liegen zwischen $x_{min}=11^\circ C$ und $q_1=12^\circ C$ .
In einem Viertel der Orte liegt der Tageshöchstwert zwischen $q_1=12^\circ C$ und $q_2=15^\circ C$ .
25% der erhobenen Daten liegen zwischen $q_3=16^\circ C$ und $x_{max}=18^\circ C$ .

0.6 Regression und Korrelation

Bis jetzt wurde jeweils ein Merkmal einer Grundgesamtheit anhand von Stichproben untersucht und mithilfe von Diagrammen und Kenngrössen wie Mittelwert oder Standardabweichung charakterisiert. Werden jetzt von einer Grundgesamtheit mehrere Merkmale gleichzeitig untersucht, so stellt sich oft die Frage, ob zwischen den verschiedenen Merkmalen ein Zusammenhang besteht. Gibt es z. B. einen Zusammenhang zwischen dem Alter $x_i$ eines Kindes und dessen Körpergrösse $y_i$ oder zwischen dem Monatslohn $x_i$ einer Näherin in einem bestimmten Land und deren Lebenserwartung $y_i$ ?

Einen ersten Hinweis darauf, ob ein allenfalls vermuteter Zusammenhang zwischen $x_i$ und $y_i$ tatsächlich vorliegt oder aus der Datenerhebung geschlossen werden darf, erhalten Sie, wenn Sie die Punkte $(x_i|y_i)$ in einem Koordinatensystem darstellen. Diese Art der Darstellung nennt sich Streudiagramm. Die folgenden vier Streudiagramme illustrieren mögliche Zusammenhänge oder Abhängigkeiten zwischen zwei Grössen, wie sie im Alltag immer wieder auftreten.

i) Dem Streudiagramm (i) können Sie entnehmen, dass mit wachsenden Merkmalswerten $x_i$ auch die Werte $y_i$ grösser werden, weshalb von einem gleichsinnigen Zusammenhang zwischen $x_i$ und $y_i$ gesprochen wird. Man sagt auch, $x_i$ und $y_i$ sind positiv korreliert. Die Grafik (Punktwolke) erweckt sogar den Eindruck, dass sich die dargestellten Punkte einer ansteigenden Gerade «anschmiegen». Die Merkmalspaare $x_i$ und $y_i$ weisen eine starke oder hohe Korrelation auf.
ii) Beim Streudiagramm (ii) hingegen ist kein auffälliger Zusammenhang oder Trend zwischen den Merkmals- bzw. Wertepaaren $(x_i, y_i)$ auszumachen. Die Punktwolke zeigt keine unmittelbar ersichtliche Struktur oder eine ins Auge springende Tendenz. In diesem Fall sind $x_i$ und $y_i$ unkorreliert.
iii) Die Punkte in der Grafik (iii) lassen die folgende Beschreibung zu: Wenn die Werte $x_i$ zunehmen, dann nehmen die entsprechenden Werte $y_i$ tendenziell ab, was auf einen ungleichsinnigen Zusammenhang der beiden Grössen $x_i$ und $y_i$ hindeutet. Hier spricht man von einer negativen Korrelation zwischen $x_i$ und $y_i$ .
iv) Die Punkte der Punktwolke (iv) scheinen entlang einer Parabel zu liegen. Es gibt somit weder einen gleichsinnigen, noch einen ungleichsinnigen Zusammenhang zwischen $x_i$ und $y_i$ . Obwohl $x_i$ und $y_i$ unkorreliert sind, scheint ein (quadratischer) Zusammenhang zwischen den beiden Merkmalen zu bestehen.

Ein Streudiagramm kann einen Hinweis darauf geben, ob ein Zusammenhang zwischen den beiden Merkmalen $x_i$ und $y_i$ (mit gleichem $i$ ) besteht. Was anhand des Streudiagramms nicht unmittelbar beantwortet werden kann, ist die Frage nach dem Grund eines optisch ersichtlichen Zusammenhanges. In der Regel sind die Punkte $(x_i|y_i)$ weder rein zufällig verteilt (wie etwa bei den geworfenen Augenzahlen $x_i$ und $y_i$ zweier verschiedenfarbiger Würfel), noch besteht ein deterministischer Zusammenhang zwischen den Werten $x_i$ und $y_i$ (wie bei einem physikalischen Gesetz, anhand dessen sich beispielsweise die Fallhöhe $y$ formelmässig direkt aus der Fallzeit $x_i$ berechnen lässt). Im ersten Fall sind die Augenzahlen $x_i$ und $y_i$ unabhängig voneinander, es besteht kein Zusammenhang zwischen den beiden Werten. Im zweiten Fall dagegen besteht eine strenge Abhängigkeit (Kausalität) zwischen der Fallzeit $x_i$ und der Fallhöhe $y_i$ , die sich durch eine Formel darstellen lässt. Die typischen alltäglichen Situationen von Korrelationen liegen meist irgendwo dazwischen.

Die Aussage «Je grösser ein Mensch ist, umso schwerer ist er» stimmt sicher nicht in jedem Fall. Ganz falsch ist die Aussage aber dennoch nicht. Gibt es eine Möglichkeit, den Zusammenhang zwischen Körpergewicht und Körpergrösse in geeigneter Weise mathematisch zu beschreiben?

Für die weiteren Untersuchungen benötigst du Antworten auf die beiden folgenden Fragen:

Das Regressionsproblem: Kann die Beziehung zwischen den beiden Grössen $x_i$ und $y_i$ mit einer möglichst einfachen Gleichung der Art $y=f(x)$ angenähert beschrieben werden? Wir beschränken uns dabei auf die lineare Regression, die Funktion $f$ soll demnach linear sein. Das Bild von $f$ wird dann Regressionsgerade oder Ausgleichsgerade genannt.
Das Korrelationsproblem: Kann die «Güte» oder «Stärke» des (linearen) Zusammenhangs durch ein geeignetes Mass beschrieben werden? Dazu wird der Korrelationskoeffizient $r$ definiert. Es gilt $-1 \le r \le 1$ .

Beispiel: Körpergrösse und Körpergewicht, Teil I In einer Stichprobe wurden Körpergrösse und Gewicht von 10 jungen Männern als Messdaten erfasst.

$x$ (cm)	188.0	177.8	182.9	182.9	170.2	185.4	175.3	175.3	182.9	172.7
$y$ (kg)	88.45	86.64	102.06	92.99	81.65	83.46	82.55	68.95	87.54	79.38

Es soll untersucht werden, wie stark der Zusammenhang zwischen der Körpergrösse und dem Körpergewicht ist. Einen ersten Anhaltspunkt erhalten Sie durch die grafische Darstellung aller Punktepaare $P(x|y)$ (Grösse|Gewicht).

Es besteht die Vermutung, dass zwischen der Grösse $x_i$ und dem Gewicht $y_i$ ein linearer Zusammenhang der Art $y_i = f(x_i) = m \cdot x_i + q$ besteht, d. h. mit zunehmender Grösse nimmt auch das Gewicht zu. Allerdings gibt es keine Gerade, die durch alle Punkte geht. Daher soll eine Gerade bestimmt werden, die möglichst «ausgeglichen» durch die eingezeichneten Punkte verläuft. Die mittlere Abweichung der Punkte von der Geraden soll demnach möglichst gering sein.

Wie kommen Sie nun rechnerisch auf eine entsprechende Gerade $y = mx + q$ ? Zunächst berechnen Sie die beiden Mittelwerte $\overline{x}$ und $\overline{y}$ . Der Punkt $(\overline{x}|\overline{y})$ stellt dann den «Schwerpunkt» der Punktwolke im Streudiagramm dar. Die zu bestimmende Gerade wird durch diesen «Schwerpunkt» gelegt. Liegt der Punkt $(x_i|y_i)$ auf der Geraden mit der Gleichung $y=mx+q$ , so gilt $y_i = mx_i + q$ . Liegt der Punkt $(x_i|y_i)$ nicht auf der Geraden, so kann die Abweichung zwischen Punkt und Geraden bestimmt werden. Dazu wird nicht der kürzeste Abstand zwischen Punkt und Gerade verwendet, sondern der vertikale Abstand $d_i = y_i - (mx_i + q)$ , da dieser besonders einfach zu berechnen ist. Dabei besagt das Vorzeichen von $d_i$ , ob der Punkt $(x_i|y_i)$ ober- oder unterhalb der gesuchten Geraden liegt.

Aus den gleichen Überlegungen wie bei der Definition der Varianz, wird die Streuung der Punkte um diese Gerade durch die Summe der quadrierten Abweichungen berechnet: $F(m, q) = \sum_{i=1}^{n} d_i^2 = \sum_{i=1}^{n} (y_i - (mx_i + q))^2$

Jetzt wird die Bedingung verwendet, dass die Gerade durch den «Schwerpunkt» $(\overline{x}|\overline{y})$ verlaufen muss. Durch Einsetzen in der Geradengleichung erhalten Sie $q = \overline{y} - m\overline{x}$ und somit: $\tilde{F}(m) = \sum_{i=1}^{n} (y_i - (mx_i + \overline{y} - m\overline{x}))^2 = \sum_{i=1}^{n} ((y_i - \overline{y}) - m(x_i - \overline{x}))^2$

Die gesuchte Regressionsgerade erhalten Sie, indem Sie $m$ so bestimmen, dass $\tilde{F}(m)$ minimal wird. Dazu kann die erste Ableitung von $\tilde{F}(m)$ gleich null gesetzt werden: $\tilde{F}'(m) = 0$ . Wird die Gleichung $\tilde{F}'(m)=0$ nach $m$ aufgelöst, so erhalten Sie: $m = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i - \overline{y})}{\sum_{i=1}^{n} (x_i - \overline{x})^2}$

Beispiel: Körpergrösse und Körpergewicht, Teil II Für die beiden Mittelwerte erhalten Sie $\overline{x} = 179.34$ cm und $\overline{y} = 85.4$ kg. Durch Einsetzen in die Formel erhalten Sie $m \approx 0.83$ kg/cm und damit folgt $q \approx -63.28$ kg/cm. Die Geradengleichung lautet somit: $y = 0.83x - 63.28$

Eine Regressionsgerade, die Sie anhand gegebener Merkmalspaare $(x_i; y_i)$ bestimmen können, beschreibt jeweils nur sehr grob die Lage der Punktwolke respektive der Verteilung der dazugehörigen Punkte. Sie gibt Ihnen auch keinen Hinweis darauf, wie nahe die einzelnen Punkte $(x_i|y_i)$ bei ihr liegen, d. h. wie gut sie die den Datenpaaren zugrunde liegende Punktwolke tatsächlich beschreibt. Was Ihnen dazu fehlt, ist eine passende Kenngrösse: der Korrelationskoeffizient $r$ .

Es wird hier auf eine Herleitung der Formel zur Berechnung von $r$ verzichtet, da jene den Rahmen dieses Buches für das Grundlagenfach deutlich sprengen würde. Der Wert für $r$ kann mit dem Taschenrechner oder einer geeigneten Software berechnet werden.

Korrelationskoeffizient Der Korrelationskoeffizient für eine Menge von $n$ Merkmalspaaren $(x_i|y_i)$ berechnet sich gemäss der folgenden Formel: $r = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i - \overline{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \overline{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \overline{y})^2}}$

Hinweis: Die beiden Faktoren im Nenner kommen auch schon bei der Berechnung der Standardabweichung $s$ vor, der Zähler bei der Steigung $m$ .

Beispiel: Körpergrösse und Körpergewicht, Teil III Berechnen Sie den Korrelationskoeffizient für dieses Beispiel, so erhalten Sie $r = 0.56$ . Dies entspricht einer mittleren positiven Korrelation.

Eigenschaften des Korrelationskoeffizienten r Der Korrelationskoeffizient kann Werte zwischen -1 und +1 annehmen: $-1 \le r \le 1$ .

Wenn $r$ positiv ist, so steigt die dazugehörige Regressionsgerade, d. h. je grösser $x$ , desto grösser $y$ . Man spricht von einem (mehr oder weniger starken) gleichsinnigen Zusammenhang oder von einer positiven Korrelation. Beispiel: Gewicht und Preis einer bestimmten Ware sind positiv korreliert.
Bei negativen Werten von $r$ fällt die dazugehörige Regressionsgerade, d. h. je grösser $x$ , desto kleiner $y$ . Man spricht von einem (mehr oder weniger starken) ungleichsinnigen Zusammenhang oder von einer negativen Korrelation. Beispiel: Aussentemperatur und Heizkosten sind negativ korreliert.
Ist $|r| = 1$ , so liegen alle Datenpunkte $(x_i|y_i)$ auf der (steigenden/fallenden) Regressionsgeraden. Liegt der Wert nahe bei 1, so spricht man von einem hohen statistischen Zusammenhang.
Wenn $r = 0$ ist, so sind die Werte (Merkmale) $x_i$ und $y_i$ unkorreliert. Von einer schwachen Korrelation spricht man, wenn $|r|$ nahe bei 0 ist.

Beispiel: Fluoridgehalt und Kariesrate Der Fluoridgehalt im Trinkwasser von sechs Städten beträgt: $(x_1, x_2, ..., x_6) = (0, 7, 12, 14, 21, 24)$ mg pro 100 Liter. Die Kariesrate in % liegt bei den Kindern in diesen sechs Städten bei: $(y_1, y_2, ..., y_6) = (20, 18, 12, 14, 6, 5)$ . Zeichnen Sie die Punktepaare in einem Koordinatensystem ein, so bekommen Sie das nebenstehende Bild. Es lässt bereits eine hohe lineare Korrelation vermuten. Es sollen die Regressionsgerade und der Korrelationskoeffizient berechnet werden. Mit einem passenden Programm erhalten Sie die zu bestimmenden Werte direkt. Für dieses Beispiel soll aber auch der Weg «von Hand» aufgeschrieben werden.

Zuerst berechnen Sie die beiden Mittelwerte: $\overline{x} = \frac{0+7+12+14+21+24}{6} = 13$ und $\overline{y} = \frac{20+18+12+14+6+5}{6} = 12.5$ Somit erhalten Sie den «Schwerpunkt» (13/12.5).

Die Steigung $m$ erhalten Sie durch Einsetzen in die entsprechende Formel: $m = \frac{(0-13)(20-12.5) + (7-13)(18-12.5) + ... + (24-13)(5-12.5)}{(0-13)^2 + (7-13)^2 + ... + (24-13)^2} = -\frac{263}{392} \approx -0.67$

Setzen Sie nun den «Schwerpunkt» (13 | 12.5) und die berechnete Steigung $m$ in der Geradengleichung $y = mx + q$ ein, so erhalten Sie $q \approx 21.22$ und somit die Gleichung der Regressionsgeraden: $y = -0.67x + 21.22$

Den Korrelationskoeffizienten erhalten Sie ebenfalls durch Einsetzen in die entsprechenden Formel, wobei Sie den Zähler bereits für die Steigung berechnet haben. Für den Nenner können Sie auch jeweils die mit $\sqrt{n-1}$ multiplizierten Standardabweichungen $s$ der beiden Merkmales $s_x = 8.08$ und $s_y = 5.59$ verwenden. $r = \frac{-263}{(8.08 \cdot \sqrt{6})(5.59 \cdot \sqrt{6})} \approx -0.97$

In diesem Fall gibt es einen hohen statistischen Zusammenhang. Ob hier ein kausaler (ursächlicher) Zusammenhang vorliegt, müsste mit zusätzlichen Überlegungen und Abklärungen untersucht werden. Eine hohe Korrelation bedeutet nicht, dass ein kausaler Zusammenhang zwischen den beiden Merkmalen besteht. Eine hohe Korrelation zwischen zwei Variablen bedeutet nur, dass das eine Merkmal ziemlich genau vorhergesagt werden kann, wenn das andere Merkmal bekannt ist. Im Beispiel Fluorid und Kariesrate ist für die Begründung eines kausalen Zusammenhangs entscheidend, dass es eine biologische Erklärung gibt, warum Fluorid Karies reduziert. Eine hohe Korrelation kann auch dadurch entstehen, dass ein drittes Merkmal $z_i$ sowohl $x_i$ als auch $y_i$ beeinflusst. Dabei ist es oft nicht einfach herauszufinden, was denn ein solches drittes Merkmal sein könnte.

Korrelation und Kausalität Es ist wichtig, dass zwischen einer Korrelation, d. h. einem statistischen Zusammenhang zweier Variablen, der auf einem hohen Wert des Absolutbetrages des Korrelationskoeffizienten basiert, und einer Kausalität, d. h. einer tatsächlichen Auswirkung von einer Variablen auf die andere Variable, unterschieden wird. Eine Korrelation zwischen zwei Merkmalen $x_i$ und $y_i$ bedeutet noch nicht, dass $y_i$ ein Verursacher von $x_i$ ist (oder $x_i$ ein Verursacher von $y_i$ ). Dieses Phänomen wird Scheinkorrelation genannt. Eine starke Korrelation kann nämlich auch dadurch zustande kommen, dass eine dritte Variable, die nicht erfasst wurde, die beiden betrachteten Merkmale beeinflusst.

Beispiel: Störche Das bekannteste Beispiel für eine Scheinkorrelation ist wohl die hohe Korrelation zwischen der Anzahl Storchenpaare und der Anzahl Geburten in verschiedenen Ländern Europas. Die Korrelation (oder der statistische Zusammenhang) kann folgendermassen formuliert werden: In Ländern mit vielen Storchenpaaren gibt es tendenziell mehr Geburten. Eine Kausalität würde hingegen so formuliert: Die Anzahl Storchenpaare in einem Land hat einen direkten Einfluss auf die Anzahl der Geburten. Das ist offensichtlicher Unsinn.

Beispiel: Starke Korrelation ohne Kausalität Weitere bekannte Beispiele für eine starke Korrelation ohne Kausalität sind: a) Bei einem Brand korreliert die Anzahl Feuerwehrleute im Einsatz mit der Grösse des Brandschadens. Es besteht jedoch keine Kausalität. Ansonsten könnte einfach die Anzahl der Feuerwehrleute am Einsatzort reduziert werden, um den Brandschaden möglichst klein zu halten. Die gemeinsame Ursache dieser Variablen ist die Grösse des Brandes, die sowohl den Brandschaden als auch die notwendige Anzahl an Feuerwehrkräften zur Löschung des Brandes bestimmt. b) Eine längere Verweildauer im Krankenhaus korreliert mit einem schlechteren Gesundheitszustand nach dem Krankenhausaufenthalt. Auch hier besteht offensichtlich kein kausaler Zusammenhang. Die dritte Variable ist hier der Gesundheitszustand der Patienten vor der Einlieferung in das Krankenhaus. Dieser beeinflusst die Dauer des Aufenthaltes und den Gesundheitszustand nach der Entlassung massgeblich. Patienten mit schweren Erkrankungen benötigen eine längere Behandlung und weisen einen schlechteren Gesundheitszustand nach ihrer Entlassung auf als Personen mit leichteren Erkrankungen. c) Eine höhere Oberflächentemperatur (Klimaerwärmung) auf der nördlichen Hemisphäre der Erde geht mit einer signifikant höheren Lebenserwartung einher. Vermutlich wird dieser Zusammenhang durch diverse Drittvariablen verursacht, wie etwa die Industrialisierung und gleichzeitige Verbesserung der medizinischen Versorgung der Bevölkerung.

0.7 Aufgaben

:: exercise #title

Getränkeflaschen #content Bei Getränken stimmen die angegebenen Füllmengen oft nicht genau. Deshalb möchte ein Getränkehersteller seine Produktion überprüfen und testet 20 beliebige 1.5-Liter-Flaschen. Er erhält die folgenden Messergebnisse (alle Angaben in Litern): 1.51, 1.49, 1.57, 1.50, 1.53, 1.50, 1.48, 1.46, 1.52, 1.54, 1.50, 1.49, 1.50, 1.48, 1.55, 1.53, 1.53, 1.50, 1.51, 1.50.

a) Berechnen Sie die durchschnittliche Füllmenge, den Median und geben Sie die Spannweite der Füllmengen an. Ist das Ergebnis verbraucherfreundlich? Begründen Sie Ihre Antwort! b) Bestimmen Sie die Standardabweichung der gegebenen Datenmenge. c) Geben Sie für vier andere 1.5-Literflaschen mögliche Füllmengen (stets unterschiedlich) an und zwar so, dass die Standardabweichung ungefähr 0.1 Liter beträgt. Beachten Sie: Es können nicht alle Abweichungen positive Werte annehmen. Warum ist das so?

#solution

a) Kennzahlen

Mittelwert ( $\bar{x}$ ): Summe aller Werte (30.13) geteilt durch 20. $\bar{x} \approx 1.507 \text{ Liter}$
Median ( $\tilde{x}$ ): Die Daten sortiert zeigen an 10. und 11. Stelle jeweils den Wert 1.50. $\tilde{x} = 1.50 \text{ Liter}$
Spannweite ( $R$ ): $x_{max} - x_{min} = 1.57 - 1.46 = 0.11 \text{ Liter}$ .
Beurteilung: Das Ergebnis ist verbraucherfreundlich, da der Durchschnittswert (1.507) knapp oberhalb der angegebenen Menge (1.5) liegt.

b) Standardabweichung $s \approx 0.026 \text{ Liter}$

c) Beispielwerte für $s \approx 0.1$ Mögliche Werte: 1.4, 1.4, 1.6, 1.6 (Mittelwert 1.5). Begründung zur Abweichung: Die Summe der Abweichungen vom Mittelwert $\sum(x_i - \bar{x})$ ist stets 0. Wenn es Werte gibt, die grösser als der Mittelwert sind (positive Abweichung), muss es zwingend Werte geben, die kleiner sind (negative Abweichung), damit sich die Summe ausgleicht. ::

:: exercise #title 2. Samenkerne #content Es wurden 178 Früchte einer bestimmten Pflanze untersucht und in jeder Frucht die Anzahl Samenkerne gezählt. Berechnen Sie anhand der nachfolgenden Tabelle die Werte $\bar{x}$ und $s$ .

$x_i$ : Anzahl Samenkerne pro Frucht	3	4	5	6	7	8	9	10	11
$n_i$ : Anzahl Früchte	8	12	13	22	45	63	23	1	1

#solution

Mittelwert ( $\bar{x}$ ): $\bar{x} = \frac{1290}{178} \approx 7.25 \text{ Samenkerne}$
Standardabweichung ( $s$ ): $s \approx 1.43 \text{ Samenkerne}$ ::

:: exercise #title 3. Milchleistung #content Auf einem Bauernhof wird die tägliche Milchleistung von Kühen statistisch erfasst und in folgender Tabelle zusammengefasst:

Milchleistung (l)	[15, 25)	[25, 30)	[30, 35)	[35, 40)	[40, 50)
Anzahl Kühe H	12	14	25	17	10

Bestimmen Sie die durchschnittliche Milchleistung und die Standardabweichung und stellen Sie die Daten als Histogramm dar.

#solution

Klassenmitten ( $x_m$ ): 20, 27.5, 32.5, 37.5, 45.
Anzahl ( $n$ ): 78.
Mittelwert ( $\bar{x}$ ): $\bar{x} = \frac{2535}{78} = 32.5 \text{ Liter}$
Standardabweichung ( $s$ ): $s \approx 6.94 \text{ Liter}$
Histogramm-Hinweis: Achte darauf, dass die Klassen unterschiedlich breit sind (Breiten: 10, 5, 5, 5, 10). Die Höhe der Balken muss entsprechend angepasst werden ( $\text{Höhe} = \frac{\text{Häufigkeit}}{\text{Breite}}$ ). ::

:: exercise #title 4. 100m-Lauf #content Bei einem Übungswettkampf mit 600 Teilnehmenden wurden die Ergebnisse im 100 m-Lauf in Klassen eingeteilt. Daraus hat sich die rechts abgebildete Tabelle ergeben.

Klassengrenzen (s)	absolute Häufigkeit
[11.0, 11.2)	4
[11.2, 11.4)	7
[11.4, 11.6)	18
[11.6, 11.8)	27
[11.8, 12.0)	59
[12.0, 12.2)	96
[12.2, 12.4)	101
[12.4, 12.6)	97
[12.6, 12.8)	82
[12.8, 13.0)	47
[13.0, 13.2)	30
[13.2, 13.4)	19
[13.4, 13.6)	5
[13.6, 13.8)	8

a) Berechnen Sie die relativen Häufigkeiten der 100 m-Lauf-Ergebnisse und zeichnen Sie ein Histogramm. b) Berechnen Sie die Standardabweichung. c) Welcher prozentuale Anteil aller Teilnehmenden lief eine Zeit unter 11.8s? Welcher prozentuale Anteil lief eine Zeit zwischen 11.8 s und 12.8s?

#solution

a) Relative Häufigkeiten (Beispiele)

11.0–11.2: $\frac{4}{600} \approx 0.7\%$
12.2–12.4: $\frac{101}{600} \approx 16.8\%$
Alle absoluten Werte durch 600 teilen.

b) Standardabweichung Berechnet über die Klassenmitten (11.1, 11.3, ...): $s \approx 0.50 \text{ s}$ (bei einem Mittelwert von $\approx 12.36 \text{ s}$ )

c) Prozentuale Anteile

Unter 11.8s: Summe der ersten 4 Klassen (4+7+18+27 = 56). Anteil: $\frac{56}{600} \approx 9.3\%$
Zwischen 11.8s und 12.8s: Summe der Klassen 5 bis 9 (59+96+101+97+82 = 435). Anteil: $\frac{435}{600} = 72.5\%$ ::

:: exercise #title 5. Zahnräder #content Eine Firma benötigt für ihre Produktion 10'000 Zahnräder mit einem Durchmesser von $d=20$ mm $\pm 0.2$ mm. Von den fünf Zahnradproduzenten A, B, C, D und E kennt die Firma nebenstehende Daten.

	A	B	C	D	E
$\bar{x}$ (mm)	20.01	19.96	20.10	19.98	20.05
$s$ (mm)	0.24	0.05	0.03	0.18	0.06

Bei welchem Produzenten sollte die Firma ihre Zahnräder bestellen? Begründen Sie Ihre Antwort.

#solution

Die Firma sollte bei Produzent E bestellen (oder C, wenn man nachjustieren kann).

Begründung:

Produzent E liefert einen Mittelwert (20.05), der sehr nah am Ziel (20.00) liegt, und hat eine kleine Standardabweichung (0.06). Damit liegen fast alle Teile im Toleranzbereich (19.8 ... 20.2).
Produzent C ist zwar präziser ( $s=0.03$ ), aber der Mittelwert (20.10) ist verschoben. Ohne Korrektur der Maschineneinstellung lägen viele Teile ausserhalb der Toleranz oder am Rand.
Produzent A hat eine zu grosse Streuung ( $s=0.24$ ), was zu viel Ausschuss führt. ::

:: exercise #title 6. Arbeitsweg #content Herr Müller notiert an verschiedenen Tagen die Zeiten in Minuten, die er für seinen Weg zur Arbeit benötigt: 55, 56, 51, 56, 25, 58, 55, 56, 56, 50, 52.

a) Berechnen Sie den Median. Formulieren Sie einen Satz, der ausdrückt, was der Wert des Medians in diesem Beispiel bedeutet. b) Ermitteln Sie Minimum und Maximum sowie das untere und obere Quartil. c) Herr Müller vertraut dem kleinsten Wert nicht und streicht ihn aus der Liste. Ermitteln Sie Median und Quartile der neuen Datenliste. Vergleichen Sie die neuen Werte mit den Werten der ersten Liste und beschreiben Sie Ihre Beobachtungen. Haben Sie eine Erklärung dafür? d) Können Sie einen möglichen Grund nennen, warum Herr Müller den kleinsten Wert aus der Liste für unwahrscheinlich hält? Worauf könnte der Wert zurückzuführen sein? e) Zeichnen Sie einen Boxplot der neuen Datenliste.

#solution

a) Median Sortierte Liste (n=11): 25, 50, 51, 52, 55, 55, 56, 56, 56, 56, 58. Median = 55 Minuten. Bedeutung: An der Hälfte der erfassten Tage war Herr Müller 55 Minuten oder schneller, an der anderen Hälfte 55 Minuten oder langsamer unterwegs.

b) Quartile (mit n=11)

Minimum: 25
Unteres Quartil ( $q_1$ ): 51
Oberes Quartil ( $q_3$ ): 56
Maximum: 58

c) Ohne Ausreisser (25) Neue Liste (n=10): 50, 51, 52, 55, 55, 56, 56, 56, 56, 58.

Neuer Median: Mittelwert aus 55 und 56 $\rightarrow$ 55.5.
Beobachtung: Der Median ändert sich kaum (55 -> 55.5).
Erklärung: Der Median ist ein robustes Mass, das unempfindlich gegenüber Ausreissern ist.

d) Grund für Ausreisser 25 Minuten ist extrem kurz (weniger als die Hälfte der üblichen Zeit). Mögliche Gründe: Feiertag (leere Strassen), anderes Verkehrsmittel, Tippfehler oder er wurde mitgenommen. ::

:: exercise #title 7. Schraubenlänge #content In einer Firma werden Schrauben gefertigt, sie sollen 80 mm lang sein. Bei einer Qualitätskontrolle werden aus der Produktion 90 Schrauben entnommen und deren Länge gemessen. Das Ergebnis ist in einer Häufigkeitstabelle dargestellt.

Länge (in mm)	79.7	79.8	79.9	80.0	80.1	80.2	80.3
abs. Häufigkeit H	12	7	14	22	17	10	8

a) Bestimmen Sie die Quartile und stellen Sie die Daten als Boxplot dar. b) Bestimmen Sie die durchschnittliche Länge der Schrauben und die Standardabweichung.

#solution

a) Quartile (n=90)

Median ( $\tilde{x}$ ): Liegt zwischen dem 45. und 46. Wert. Beide liegen in der Kategorie 80.0. $\rightarrow$ 80.0 mm.
Unteres Quartil ( $q_1$ ): $\approx$ 23. Wert $\rightarrow$ Kategorie 79.9 mm.
Oberes Quartil ( $q_3$ ): $\approx$ 68. Wert $\rightarrow$ Kategorie 80.1 mm.
Boxplot-Werte: Min=79.7, $q_1$ =79.9, Med=80.0, $q_3$ =80.1, Max=80.3.

b) Mittelwert & Standardabweichung

Mittelwert ( $\bar{x}$ ): $\approx 79.99 \text{ mm}$ .
Standardabweichung ( $s$ ): $\approx 0.16 \text{ mm}$ . ::

:: exercise #title 8. Pygmäen #content Im Jahr 1909 hatte der Schweizer Anthropologe Otto Schlaginhaufen im Torricelligebirge auf der Insel Neuguinea die Körperlänge von Pygmäen gemessen (Schlaginhaufen, 1914) und die folgende Urliste erhalten (Angaben in mm). Berechnen Sie die Spannweite R, den Mittelwert, die Standardabweichung s und stellen Sie die Daten aus der Stichprobe als Boxplot dar.

(Liste der 30 Werte siehe Originaltext Aufgabe 8)

#solution

Spannweite ( $R$ ): $1657 - 1398 = 259 \text{ mm}$ .
Mittelwert ( $\bar{x}$ ): $\approx 1518.7 \text{ mm}$ .
Standardabweichung ( $s$ ): $\approx 67.4 \text{ mm}$ .
Boxplot-Kennzahlen:
- Minimum: 1398
- Unteres Quartil ( $q_1$ ): $\approx 1466$
- Median: 1523
- Oberes Quartil ( $q_3$ ): $\approx 1561$
- Maximum: 1657 ::

:: exercise #title 9. Berg-Flockenblume #content Bei der Berg-Flockenblume (Centaurea montana) variiert die Anzahl der Randblüten ziemlich stark. Eine Stichprobe von 50 Exemplaren dieser Berg-Flockenblumen lieferte die nachfolgende Tabelle (Wagner, 1957). Berechnen Sie den Mittelwert und die Standardabweichung s.

Anzahl Blütenblätter	10	11	12	13	14	15	16	17
Absolute Häufigkeit	3	6	8	9	12	7	3	2

#solution

Mittelwert ( $\bar{x}$ ): $\bar{x} = \frac{661}{50} = 13.22$
Standardabweichung ( $s$ ): $s \approx 1.83$ ::

:: exercise #title 10. Pizzalieferung #content Luca bestellt sich seine Pizza häufig bei Speedy-Pizza. Er notiert sich jedes Mal die Zeit zwischen Bestellung und Lieferung der Pizzen in Minuten: Lieferzeiten Speedy-Pizza: 21, 14, 16, 22, 16, 18, 24, 15, 19, 17, 23, 16, 13

a) Bestimmen Sie den Mittelwert, den Modus und den Median der Datenreihe. b) Zeichnen Sie den dazugehörigen Boxplot. c) Luca hat unterdessen noch einen weiteren Pizzalieferanten ausprobiert. Auch hier notiert er sich die Lieferzeiten in Minuten: Lieferzeiten Rapid-Pizza: 14, 19, 16, 15, 21, 22, 20, 18, 23, 17 Wie schnell muss Rapid-Pizza die nächste Pizza liefern, damit die durchschnittliche Lieferzeit die gleiche ist wie bei Speedy-Pizza?

#solution

a) Kennzahlen Speedy-Pizza (n=13)

Sortierte Liste: 13, 14, 15, 16, 16, 16, 17, 18, 19, 21, 22, 23, 24.
Mittelwert: $\frac{234}{13} = 18 \text{ min}$ .
Modus: 16 (kommt 3-mal vor).
Median: 7. Wert $\rightarrow 17$ .

b) Boxplot Min=13, $q_1$ =15.5, Med=17, $q_3$ =21.5, Max=24.

c) Rapid-Pizza Bisherige Summe Rapid (10 Werte): 185. Ziel-Durchschnitt: 18. Neue Anzahl n=11. Gleichung: $\frac{185 + x}{11} = 18 \Rightarrow 185 + x = 198 \Rightarrow x = 13$ . Antwort: Die nächste Pizza muss in 13 Minuten geliefert werden. ::

:: exercise #title 11. Physik-Olympiade #content Anlässlich der Internationalen Physik-Olympiade (IPhO 2016) in Zürich standen viele Helferinnen und Helfer, sogenannte «Guides» im Einsatz. Im Jahrbuch war bei einem Grossteil der gut hundert Guides der Jahrgang angegeben.

(Daten siehe Originaltext Aufgabe 11)

a) Berechnen Sie den Mittelwert, den Modus, den Median, Minimum und Maximum, die Spannweite sowie die (empirische) Standardabweichung dieser Jahrgangszahlen und zeichnen Sie den dazugehörigen Boxplot. b) Welches durchschnittliche Alter hatten diese Guides Anfang Juli 2016? (Runden Sie auf ganze Monate und setzen Sie das durchschnittliche Geburtsdatum jeden Jahrgangs auf den 1. Juli.)

#solution

a) Kennzahlen

Mittelwert: $\approx 1990.9$
Modus: 1996
Median: 1994
Minimum: 1937
Maximum: 1999
Spannweite: 62 Jahre
Standardabweichung: $s \approx 10.8$ Jahre

b) Durchschnittsalter Bezugsjahr 2016. $2016 - 1990.9 \approx 25.1$ Jahre. Antwort: ca. 25 Jahre und 1 Monat. ::

:: exercise #title 12. Regression (klein) #content Gegeben sind die fünf Datenpaare $(x; y)$ : (3;3), (5;2), (1;8), (4;2), (2;5). Bestimmen Sie die Gleichung der Regressionsgeraden und berechnen Sie den Korrelationskoeffizienten.

#solution

Mittelwerte: $\bar{x}=3, \bar{y}=4$ .
Regressionsgerade ( $y = mx + q$ ): $m = \frac{-15}{10} = -1.5$ . $q = 4 - (-1.5 \cdot 3) = 8.5$ . Gleichung: $y = -1.5x + 8.5$ .
Korrelationskoeffizient ( $r$ ): $r \approx -0.93$ . ::

:: exercise #title 13. Sportlerinnen #content Bei zehn Sportlerinnen wurden zu Beginn und am Ende einer längeren Trainingsperiode Leistungsmessungen durchgeführt. Dabei wurden die folgenden Punktzahlen erzielt:

(Tabelle siehe Aufgabe 13)

Bestimmen Sie die Gleichung der Regressionsgeraden und berechnen Sie den Korrelationskoeffizienten r.

#solution

Mittelwerte: $\bar{x}=70.4, \bar{y}=188.9$ .
Regressionsgerade: $y \approx 6.45x - 265.2$
Korrelationskoeffizient: $r \approx 0.63$ (mittlerer positiver Zusammenhang). ::

:: exercise #title 14. Preisentwicklung #content Zur Untersuchung der Preisentwicklung eines Artikels sind Stichproben erhoben worden. Von neun zufällig ausgewählten Lieferanten wurde je der Artikelpreis Mitte Juni und Mitte Dezember festgehalten. Berechnen Sie anhand der nachfolgenden Tabelle den Korrelationskoeffizienten r.

(Tabelle siehe Aufgabe 14)

#solution

Korrelationskoeffizient ( $r$ ): $r \approx 0.998$ (Sehr starker linearer Zusammenhang, die Preise haben sich fast gleichförmig entwickelt). ::

:: exercise #title 15. Würfel-Experiment #content Führen Sie mit zwei unterscheidbaren Würfeln – beispielsweise mit einem schwarzen und einem weissen – gleichzeitig 30 Würfe durch und notieren Sie die jeweils geworfenen Augenzahlen als geordnete Wertepaare $(s_i; w_i)$ . Berechnen Sie den dazugehörigen Korrelationskoeffizienten r. Wiederholen Sie diese Wurfserien mehrere Male und berechnen Sie jedes Mal das dazugehörige r. Kommentieren Sie Ihre Ergebnisse.

#solution

Erwartetes Ergebnis: Da die beiden Würfel unabhängig voneinander fallen, gibt es keinen systematischen Zusammenhang zwischen den Augenzahlen. Der berechnete Korrelationskoeffizient $r$ wird nahe bei 0 liegen (schwankend z. B. zwischen -0.2 und +0.2). Es liegt keine Korrelation vor. ::

:: exercise #title 16. Scheinkorrelation #content Vielfach besteht die Gefahr, dass eine starke oder hohe Korrelation voreilig einen kausalen Zusammenhang zwischen den beobachteten Merkmalspaaren vermuten lässt. (Beispiel Störche im Text) Suchen Sie weitere Beispiele solcher Scheinkorrelationen.

#solution

Beispiele für Scheinkorrelationen:

Eiscreme & Sonnenbrand: Hohe Korrelation, aber keine Kausalität. (Gemeinsame Ursache: Sommer/Sonne).
Schuhgrösse & Lesefähigkeit: Menschen mit grösseren Füssen lesen besser. (Gemeinsame Ursache: Alter/Entwicklung – Erwachsene haben grössere Füsse als Kleinkinder).
Feuerwehrleute & Brandschaden: Mehr Feuerwehrleute korrelieren mit höherem Schaden. (Ursache: Die Grösse des Feuers bestimmt beides). ::

:: exercise #title 17. Parabel & Muster #content a) Bestimmen Sie für die Stichprobe der fünf Zahlenpaare (-2; 4), (-1; 1), (0; 0), (1; 1) und (2; 4) den Korrelationskoeffizienten r. Was schliessen Sie daraus? b) Berechnen Sie für die Merkmalspaare (2.1; 1.1), (3.9; 1.9) ... (siehe Text) den Korrelationskoeffizienten und beurteilen Sie den (linearen) Zusammenhang. Fassen Sie die zehn Merkmalspaare als Koordinaten von Punkten auf und übertragen Sie diese in ein ebenes Koordinatensystem. Kommentieren Sie Ihr Ergebnis.

#solution

a) Parabel ( $y=x^2$ )

Ergebnis: $r = 0$ .
Schlussfolgerung: $r=0$ bedeutet nur, dass kein linearer Zusammenhang besteht. Hier liegt jedoch ein perfekter quadratischer (nicht-linearer) Zusammenhang vor.

b) Spezielle Punkte

Ergebnis: $r \approx -1$ .
Kommentar: Die Punkte zeigen einen fast perfekten negativen linearen Zusammenhang, obwohl sie aus verschiedenen Abschnitten stammen könnten. ::


144	150	154	154	160	160	162	162	163	164
164	164	164	165	167	167	168	169	170	171
171	172	172	172	173	174	175	176	176	176
177	178	179	179	182	182	182	182	184	185
186	187	187	188	189	190	190	191	193	205


120	209	279	320	30	75	48	10	76	379
141	28	275	116	306	195	401	121	371	204
101	185	165	154	35	136	270	187	380	129
61	181	210	245	151


144	150	154	154	160	160	162	162	163	164
164	164	164	165	167	167	168	169	170	171
171	172	172	172	173	174	175	176	176	176
177	178	179	179	182	182	182	182	184	185
186	187	187	188	189	190	190	191	193	205


120	209	279	320	30	75	48	10	76	379
141	28	275	116	306	195	401	121	371	204
101	185	165	154	35	136	270	187	380	129
61	181	210	245	151


144	150	154	154	160	160	162	162	163	164
164	164	164	165	167	167	168	169	170	171
171	172	172	172	173	174	175	176	176	176
177	178	179	179	182	182	182	182	184	185
186	187	187	188	189	190	190	191	193	205


120	209	279	320	30	75	48	10	76	379
141	28	275	116	306	195	401	121	371	204
101	185	165	154	35	136	270	187	380	129
61	181	210	245	151