Beschreibende Statistik

0 Beschreibende Statistik

Die Statistik befasst sich mit dem Sammeln und Erheben von Daten, sowie deren Auswertung und Darstellung. Die Daten können z. B. aus einer Umfrage, einer Messreihe in einem Experiment oder einer medizinischen Studie stammen. Die Aufgabe der beschreibenden Statistik ist es dabei, die bereits erhobenen oder zusammengetragenen Daten grafisch darzustellen und mit sogenannten Lage- und Streuungsmassen zusammenzufassen und zu vergleichen.

Einstiegsaufgabe: Monatslöhne

Eine Firma bezahlt die folgenden Monatslöhne:

Monatslohn in CHF Anzahl Mitarbeitende
3500 11
3600 6
3800 5
3950 2
4300 4
4500 9
6000 6
6500 10
9800 2
175'000 1

a) Wie gross ist der durchschnittliche Monatslohn?

b) Auf die Frage eines Reporters, wie es um die Löhne in seiner Firma stehe, antwortet der Firmenchef folgendermassen: Der durchschnittliche Monatslohn liegt bei uns über 7500 Franken. Kommentieren Sie die Antwort aus Sicht eines Angestellten der Firma.

c) Welche weiteren Fragen könnte der Reporter zum Lohn stellen, um ein besseres Bild von der Lohnpolitik der Firma zu erhalten?

0.1 Grundbegriffe der beschreibenden Statistik

Die Menge, über die eine statistische Aussage gemacht werden soll, wird als Grundgesamtheit bezeichnet. Wird die ganze Grundgesamtheit untersucht, wie zum Beispiel in der Einstiegsaufgabe oder bei einer Volkszählung, so spricht man von einer Vollerhebung. In diesem Fall geht es nur darum, die Daten darzustellen und mit Lage- und Streuungsmassen zusammenzufassen.

Oft ist es jedoch nicht möglich, die benötigten Daten aus der ganzen Grundgesamtheit zu erheben. Dann wird nur ein Teil der Grundgesamtheit untersucht: eine Stichprobe. Auch da geht es zunächst einmal darum, die Daten der Stichprobe geeignet darzustellen und zu beschreiben. Der Rückschluss von der Stichprobe auf die Grundgesamtheit ist dann die Aufgabe der schliessenden Statistik. Diese beruht wesentlich auf der Wahrscheinlichkeitsrechnung. In diesem Buch wird daher erst in Kapitel 7 (Testen von Hypothesen) eine Einführung in die schliessende Statistik gegeben.

Eine statistische Erhebung befasst sich immer mit bestimmten Eigenschaften der untersuchten Gegenstände oder Lebewesen. Die untersuchten Eigenschaften werden auch als Merkmale bezeichnet. Zu jedem Merkmal gibt es Zahlwerte oder Eigenschaften, die dieses Merkmal annehmen kann. Diese werden als Merkmalsausprägungen bezeichnet.

Beispiel: Bevölkerung Die Bevölkerung eines Landes bildet immer wieder die Grundgesamtheit bei statistischen Erhebungen. Typische Merkmale sind etwa: Geschlecht, Beruf, Körpergrösse, höchster Schulabschluss, Anzahl Kinder oder Augenfarbe. Die Merkmalsausprägungen des Merkmals «Geschlecht» sind dann: weiblich, männlich. Die Merkmalsausprägungen des Merkmals «Körpergrösse» sind (theoretisch) alle Werte zwischen 25 cm und 2.80 m.

Die Merkmale lassen sich grob in zwei Gruppen unterteilen: Merkmale, die durch Zahlen erfassbar sind und solche, die nicht durch Zahlen erfasst werden können.

Quantitative und qualitative Merkmale Es gibt zwei verschiedene Merkmalstypen, die sich jeweils in zwei Untertypen aufteilen lassen. Bei einem quantitativen Merkmal lassen sich die Merkmalsausprägungen anhand von Zahlen beschreiben. Können nur bestimmte Zahlen auftreten (z. B. nur ganze Zahlen), so heisst das quantitative Merkmal diskret. Können hingegen im Prinzip alle reellen Zahlenwerte in einem vorgegebenen Bereich auftreten, heisst das Merkmal stetig.

Bei einem qualitativen Merkmal sind die dazugehörigen Charakterisierungen Eigenschaften oder Namen, aber keine Zahlen. Qualitative Merkmale heissen ordinal, wenn sie in eine sinnvolle Reihenfolge gebracht werden können, andernfalls heissen sie nominal.

Beispiel: Merkmalstypen

Merkmal Merkmalsausprägungen Merkmalstypen
Augenfarbe blau, grün, braun, ... qualitativ, nominal
Körpergrösse 52 cm, 1.59 m, ... quantitativ, stetig
Anzahl Geschwister 0, 1, 2, 3, ... quantitativ, diskret
Fitness schlecht, gut, ausgezeichnet qualitativ, ordinal

0.2 Klasseneinteilung und Histogramm

Beispiel: Prüfungsnoten, Teil I Die Klasse 1A hat in der letzten Prüfung folgende Noten erzielt: 3.5, 2, 5, 3.5, 5.5, 5, 3.5, 3, 3.5, 5, 6, 4.5, 5, 6, 2.5, 4, 3, 4

Für die absoluten Häufigkeiten zählen Sie, wie oft die einzelnen Noten vorkommen. Für die entsprechenden relativen Häufigkeiten müssen Sie zusätzlich wissen, wie viele Noten insgesamt vorkommen. In diesem Fall sind es 18 Noten, d. h. n=18n=18. Die absoluten oder relativen Häufigkeiten von Merkmalsausprägungen können anhand eines Stabdiagramms anschaulich dargestellt werden.

Note HiH_i hih_i hih_i \approx
1 0 0 0%
1.5 0 0 0%
2 1 1/18 5.6%
2.5 1 1/18 5.6%
3 2 1/9 11.1%
3.5 4 2/9 22.2%
4 2 1/9 11.1%
4.5 1 1/18 5.6%
5 4 2/9 22.2%
5.5 1 1/18 5.6%
6 2 1/9 11.1%

Wird nur ein Merkmal erfasst, dann werden die Daten in einer Urliste zusammengetragen. Die Anzahl der erfassten Daten heisst Stichprobenumfang und wird mit nn bezeichnet. Urliste = a1,a2,a3,...,ana_1, a_2, a_3, ..., a_n

Es können durchaus mehrere Daten die gleiche Merkmalsausprägung besitzen, z. B.: a1=a5=a8a_1=a_5=a_8, a2=a16,...a_2=a_{16}, ... Jetzt kann gezählt werden, wie oft die verschiedenen Merkmalsausprägungen vorkommen und so die Häufigkeit der verschiedenen Merkmalsausprägungen bestimmt werden.

Absolute und relative Häufigkeit Die absolute Häufigkeit HiH_i der Merkmalsausprägung xix_i gibt an, wie oft die Merkmalsausprägung xix_i in der Urliste vorkommt (Anzahl). Die relative Häufigkeit hih_i einer Merkmalsausprägung xix_i gibt an, wie gross der Anteil der Merkmalsausprägung xix_i an der gesamten Stichprobe vom Umfang nn ist: hi=Hinh_i = \frac{H_i}{n}

Es gilt: H1+H2+...+Hk=nH_1 + H_2 + ... + H_k = n bzw. h1+h2+...+hk=1h_1 + h_2 + ... + h_k = 1

Sollen verschiedene Datensätze mit unterschiedlichem Stichprobenumfang verglichen werden, so werden dazu oft die relativen Häufigkeiten verwendet.

Beispiel: Prüfungsvergleich In der Klasse 1A waren in der letzten Prüfung 8 von 18 Schülern ungenügend. In der Klasse 1B waren sogar 12 von 27 Schülern ungenügend. Vergleichen Sie die beiden absoluten Häufigkeiten, so sind in der Klasse 1B eineinhalbmal so viele Schüler ungenügend gewesen, wie in der Klasse 1A. Vergleichen Sie hingegen die relativen Häufigkeiten, so erkennen Sie, dass der Anteil der ungenügenden Noten in beiden Klassen gleich gross war, nämlich 4944.4%\approx \frac{4}{9} \approx 44.4\%.

Klasseneinteilung und Histogramm Bei Merkmalen mit vielen Merkmalsausprägungen und insbesondere bei stetigen Merkmalen ist es oft nicht sinnvoll, die ganze Urliste anzugeben und die Häufigkeit für jede einzelne Merkmalsausprägung zu bestimmen. Stattdessen werden die Werte in Klassen zusammengefasst.

Beispiel: Körpergrösse, Teil I Eine Datenerhebung der Körpergrösse mit 50 Probanden ergibt folgende geordnete Urliste (Angaben in cm und auf ganze Zahlen gerundet):

144 150 154 154 160 160 162 162 163 164
164 164 164 165 167 167 168 169 170 171
171 172 172 172 173 174 175 176 176 176
177 178 179 179 182 182 182 182 184 185
186 187 187 188 189 190 190 191 193 205

Die Einteilung in sieben Klassen mit Klassenbreiten von je 10 cm ergibt die folgende Tabelle:

Körpergrösse (cm) 140-149 150-159 160-169 170-179 180-189 190-199 200-209
HiH_i 1 3 14 16 11 4 1

Beispiel: Körpergrösse, Teil III Einteilung in fünf Klassen mit unterschiedlichen Klassenbreiten:

Körpergrösse (cm) Klassenbreite (cm) HiH_i Höhe = HiH_i / Klassenbreite
140-159 20 4 2
160-169 10 14 14
170-179 10 16 16
180-189 10 11 10
190-209 20 5 2.5

Die Klassenbreite berechnet sich wie folgt: Die Klasse 140-149 beinhaltet wegen der Rundung auf ganze Zentimeter alle Körpergrössen im Intervall [139.5, 149.5) (in cm). Die Klassenbreite ist die Länge dieses Intervalls: 149.5 cm - 139.5 cm = 10 cm.

Für die Darstellung von in Klassen eingeteilten Daten wird meist ein Histogramm verwendet. Beim Histogramm wird jede Klasse durch ein Rechteck dargestellt, dessen Fläche proportional zur absoluten (oder relativen) Häufigkeit der in der Klasse zusammengefassten Werte ist.

Beispiel: Körpergrössen, Teil II Es werden direkt nebeneinander liegende Rechtecke von der Breite der jeweiligen Klasse gezeichnet. Besitzen alle Klassen dieselbe Klassenbreite, so entsprechen die absoluten (oder relativen) Häufigkeiten gerade den Rechteckshöhen. Es kann auch vorkommen, dass nicht alle Klassen die gleiche Breite aufweisen. In diesem Fall entsprechen die Rechteckshöhen nicht mehr den absoluten (oder relativen) Häufigkeiten, sondern sind proportional zum Quotienten HiH_i/Klassenbreite.

Histogramm Um ein Histogramm zeichnen zu können, müssen die Daten zuerst in Klassen eingeteilt werden. Dabei darf die Anzahl Klassen weder zu gross noch zu klein sein. Wenn die Anzahl Klassen zu gross ist, wird der visuelle Eindruck von starken Schwankungen zwischen benachbarten Rechtecken dominiert, was den Blick auf das Wesentliche erschwert. Ist die Anzahl Klassen hingegen zu klein, gehen wesentliche Informationen verloren. Die folgende Faustregel hat sich in vielen Fällen bewährt: Bei nn erfassten Daten gilt für die Anzahl kk der Klassen: knk \approx \sqrt{n} aber k20k \le 20.

Die Klassenbreiten geben die Breite der Rechtecke vor. Der Flächeninhalt eines Rechtecks entspricht der absoluten (oder relativen) Häufigkeiten der in der Klasse zusammengefassten Daten (Klassenhäufigkeit). Die Rechteckshöhe berechnet sich entsprechend der Formel: Ho¨he=Klassenha¨ufigkeitKlassenbreiteHöhe = \frac{Klassenhäufigkeit}{Klassenbreite}

Meist werden gleich breite Klassen gewählt, so dass die Höhen der Rechtecke proportional zu den Klassenhäufigkeiten sind.

Beispiel: Schädlingsbekämpfung Im Vorfeld seiner Maturarbeit über die prophylaktische Bekämpfung einer Insektenart, die gewissen Bäumen schadet, hat ein Schüler eine Stichprobe von 35 Bäumen ausgewählt und bei jedem Stamm die Anzahl der an ihm abgelegten Eier der untersuchten Insektenart bestimmt:

120 209 279 320 30 75 48 10 76 379
141 28 275 116 306 195 401 121 371 204
101 185 165 154 35 136 270 187 380 129
61 181 210 245 151

Die erhobenen Daten möchte er nun in einem Histogramm darstellen. Bei n=35n=35 Daten, sollten 356\sqrt{35} \approx 6 Klassen gebildet werden. Die erhaltenen Werte liegen zwischen 10 und 401. Eine mögliche Klasseneinteilung mit sechs Klassen der Breite 70 ist:

Klasse 0-70 71-140 141-210 211-280 281-350 351-420
HiH_i 6 8 11 4 2 4

Viele Klassen (und somit kleine Klassenbreiten) geben ein detaillierteres Bild über die Verteilung der Daten. Wenige (dafür breitere) Klassen wirken hingegen ausgleichend, d. h. grössere Schwankungen werden geglättet. Dadurch geht aber auch Information verloren.

0.3 Lagemasse

Anstatt die Urliste anzugeben oder ein Histogramm zu zeichnen, können quantitative Daten auch durch Masszahlen zusammengefasst werden. Dazu braucht es mindestens zwei Grössen, ein Mass für die Lage und ein Mass für die Streuung. Das wohl bekannteste Lagemass ist der Mittelwert (arithmetische Mittel), den Sie zum Beispiel als Notendurchschnitt in der Schule kennen.

Beispiel: Prüfungsnoten, Teil II Sie betrachten wieder die Prüfungsnoten der Klasse 1A (S. 3 Prüfungsnoten, Teil I). Um den Durchschnitt zu berechnen, müssen Sie zuerst die Anzahl Noten bestimmen. In diesem Fall sind es n=18n=18 Noten. Sie erhalten den Durchschnitt, indem Sie alle Noten addieren und anschliessend durch die Anzahl nn dividieren. 3.5+2+5+3.5+5.5+5+3.5+3+3.5+5+6+4.5+5+6+2.5+4+3+418=149364.1\frac{3.5+2+5+3.5+5.5+5+3.5+3+3.5+5+6+4.5+5+6+2.5+4+3+4}{18} = \frac{149}{36} \approx 4.1

Eine etwas übersichtlichere Variante zur Berechnung des Durchschnitts führt über die absoluten Häufigkeiten HiH_i. Damit können Sie den Durchschnitt folgendermassen berechnen: 12+12.5+23+43.5+24+14.5+45+15.5+2618=149364.1\frac{1\cdot2 + 1\cdot2.5 + 2\cdot3 + 4\cdot3.5 + 2\cdot4 + 1\cdot4.5 + 4\cdot5 + 1\cdot5.5 + 2\cdot6}{18} = \frac{149}{36} \approx 4.1

Arithmetisches Mittel Das arithmetische Mittel (Mittelwert, Durchschnitt) der nn Zahlen x1,x2,x3,...,xnx_1, x_2, x_3, ..., x_n einer Urliste ist definiert durch: x=x1+x2+x3+...+xnn=1ni=1nxi\overline{x} = \frac{x_1 + x_2 + x_3 + ... + x_n}{n} = \frac{1}{n} \cdot \sum_{i=1}^{n} x_i

Kommen einige der Zahlen in der Liste mehrmals vor, so ist es oft bequemer, das arithmetische Mittel anhand der Häufigkeiten zu bestimmen. Dabei ist HiH_i die absolute Häufigkeit und hih_i die relative Häufigkeit der Merkmalsausprägung xix_i. x=H1x1+H2x2+...+Hkxkn=1ni=1kHixi=i=1khixi\overline{x} = \frac{H_1 \cdot x_1 + H_2 \cdot x_2 + ... + H_k \cdot x_k}{n} = \frac{1}{n} \cdot \sum_{i=1}^{k} H_i \cdot x_i = \sum_{i=1}^{k} h_i \cdot x_i

Der Durchschnitt ist nicht die einzige Möglichkeit, ein «Zentrum» in der Urliste zu definieren. Stattdessen können Sie auch den häufigsten Wert als «Zentrum» definieren oder denjenigen Wert, der genau in der Mitte der geordneten Urliste liegt.

Modus Derjenige Wert, der am häufigsten in einer Liste vorkommt, heisst Modus oder Modalwert (Mehrzahl: Modi). Der Modus muss nicht eindeutig sein, es können mehrere Modi vorkommen. Der Modus ist vor allem bei qualitativen Merkmalen sinnvoll. Wenn Sie beispielsweise eine Urliste von natürlichen Haarfarben haben, so ist der Modus die am häufigsten vorkommende Haarfarbe. Die Berechnung eines arithmetischen Mittels ist dagegen in diesem Beispiel gar nicht möglich.

Median Sind die Zahlen x1,x2,...,xnx_1, x_2, ..., x_n einer Zahlenliste der Grösse nach geordnet und ist nn ungerade, so heisst der Wert in der Mitte der Liste Median (oder Zentralwert). Ist nn gerade, so ist der Median das arithmetische Mittel der beiden benachbarten Werte in der Mitte der Liste.

Weitere Lagemasse sind das Minimum und das Maximum:

Minimum und Maximum Das Minimum xminx_{min} ist der kleinste auftretende Wert in der Urliste. Das Maximum xmaxx_{max} ist der grösste auftretende Wert in der Urliste.

Beispiel: Körpergrösse, Teil IV Bei diesem Beispiel erhalten Sie aus der Urliste (S. 4 Körpergrösse, Teil I) den Mittelwert x=173.9\overline{x}=173.9 cm. Die folgende Tabelle zeigt die Einteilung in sieben Klassen mit Klassenbreiten von je 10 cm und die dazugehörigen Klassenmitten.

Körpergrösse (cm) Klassenmitte absolute Häufigkeit
140-149 144.5 1
150-159 154.5 3
160-169 164.5 14
170-179 174.5 16
180-189 184.5 11
190-199 194.5 4
200-209 204.5 1

Der Mittelwert berechnet sich dann wie immer: 144.51+154.53+164.514+174.516+184.511+194.54+204.5150=174.3 cm\frac{144.5\cdot1 + 154.5\cdot3 + 164.5\cdot14 + 174.5\cdot16 + 184.5\cdot11 + 194.5\cdot4 + 204.5\cdot1}{50} = 174.3 \text{ cm}

Ein Mittelwert kann auch berechnet werden, wenn die Daten bereits in Klassen eingeteilt worden sind. Es wird dann mit den jeweiligen Klassenmitten gerechnet. Die Klassenmitte einer Klasse entspricht dem arithmetischen Mittel des kleinsten und des grössten möglichen Werts der Klasse. Der mithilfe der Klassenmitten berechnete Mittelwert kann allerdings vom Mittelwert der Urliste abweichen, wie das folgende Beispiel zeigt.

Beispiel: Schrauben, Teil I Eine Firma muss Schrauben einkaufen. Sie bekommt von zwei Herstellern je eine Mustersendung mit je 90 Schrauben. Diese werden vermessen. Die folgende Tabelle fasst die Ergebnisse zusammen.

Länge mm 79.3 79.4 79.5 79.6 79.7 79.8 79.9 80.0 80.1 80.2 80.3 80.4 80.5 80.6 80.7
Firma A: H 0 0 0 0 0 1 17 45 21 5 0 0 0 0 1
Firma B: H 1 1 5 6 7 6 9 14 10 9 8 6 3 3 2

Bei der Auswertung der Daten stellt die Firma fest, dass die Schrauben beider Hersteller im Durchschnitt die gleiche Länge haben, nämlich x80.021\overline{x} \approx 80.021 cm. Auch der Modus und der Median sind bei den beiden Herstellern gleich. Allerdings ist aus der Tabelle ersichtlich, dass beim Hersteller A die Schraube der Länge 80.7 mm einen einzelnen Ausreisser darstellt. Lassen Sie diesen Wert bei der Berechnung des Mittelwerts weg, so erhalten Sie xA80.013\overline{x}_A^* \approx 80.013 mm. Der Modus und der Median bleiben hingegen unverändert. Es zeigt sich, dass der Hersteller A qualitativ besser ist, da dessen Schraubenlängen tendenziell näher beim Mittelwert liegen als beim Hersteller B. Oder mit anderen Worten, die Schraubenlängen beim Hersteller A streuen weniger stark.

Bemerkung: Ein Beobachtungswert, der scheinbar nicht zu den übrigen Beobachtungswerten in der Stichprobe (Urliste) passt, wird als Ausreisser bezeichnet. Im allgemeinen handelt es sich dabei um einen besonders grossen oder sehr kleinen Merkmalswert. Ausreisser wirken sich oft stark auf das arithmetische Mittel und auf die Streuungsmasse aus. Andere Masszahlen wie der Median sind dagegen nicht anfällig für Änderungen durch einzelne Ausreisser, sie sind robust.

Beispiel: Prüfungsnoten, Teil IV In der Notenliste der Klasse 1A (S. 3 Prüfungsnoten, Teil 1) können die folgenden Lagemasse angegeben werden:

Der Median besagt, dass es in diesem Beispiel gleich viele Schüler gibt, die eine Note 4\le 4 erhalten haben, wie Schüler, die eine Note 4\ge 4 erhalten haben.

0.4 Streuungsmasse

Die Lagemasse sagen etwas über Lage oder Position der Daten auf einer Skala aus. Sie geben jedoch keine Auskunft darüber, wie diese Daten streuen oder auf einer Skala zwischen dem Minimum und dem Maximum verteilt sind. Die Streuungsmasse hingegen geben Auskunft darüber, wie stark die Werte von ihrem Mittelwert abweichen. Ein einfaches Streuungsmass ist die Spannweite.

Spannweite Sind xmaxx_{max} der grösste und xminx_{min} der kleinste Wert in einer Urliste, so wird die Differenz als Spannweite R der Urliste bezeichnet: R=xmaxxminR = x_{max} - x_{min}

Die Spannweite gibt die Länge des gesamten Bereichs an, über den sich die Werte in der Urliste erstrecken. Allerdings sagt die Spannweite R nichts darüber aus, ob der Grossteil der Datenwerte um den Mittelwert konzentriert ist, ob die Werte gleichmässig über die ganze Spannweite verstreut sind oder ob sich die Werte am einen oder anderen Ende häufen.

Eine weitere Möglichkeit, etwas über die Streuung der Daten auszusagen, wäre die durchschnittliche Abweichungen der einzelnen Datenwerte vom Mittelwert zu bestimmen. Für einen Datenwert xix_i und den Mittelwert x\overline{x} beträgt diese Abweichung xixx_i - \overline{x}. Berechnen Sie nun den Durchschnitt all dieser Abweichungen vom Mittelwert, so erhalten Sie: 1ni=1n(xix)=1ni=1nxi1ni=1nx=x1nnx=xx=0\frac{1}{n} \cdot \sum_{i=1}^{n} (x_i - \overline{x}) = \frac{1}{n} \cdot \sum_{i=1}^{n} x_i - \frac{1}{n} \cdot \sum_{i=1}^{n} \overline{x} = \overline{x} - \frac{1}{n} \cdot n \cdot \overline{x} = \overline{x} - \overline{x} = 0

Der Grund für dieses Ergebnis ist, dass diese Abweichungen xixx_i - \overline{x} sowohl positiv als auch negativ werden können und dass sich die positiven und die negativen Abweichungen insgesamt gegenseitig aufheben. Dies könnte vermieden werden, wenn stattdessen die Beträge der Abweichungen verwendet würden, sodass alle Beiträge positiv sind und sich deshalb nicht gegenseitig aufheben könnten. Das Rechnen mit Beträgen ist sehr umständlich. Stattdessen werden üblicherweise die (ebenfalls positiven) Quadrate (xix)2(x_i - \overline{x})^2 der Abweichungen verwendet. In der Praxis hat sich gezeigt, dass bei einer Stichprobe für die Rückschlüsse auf die Grundgesamtheit besser durch n1n-1 statt durch nn dividiert wird. Dies führt auf die empirische Varianz.

Empirische Varianz Die empirische Varianz s2s^2 der nn Zahlen x1,x2,...,xnx_1, x_2, ..., x_n einer Grundgesamtheit mit Mittelwert x\overline{x} ist wie folgt definiert: s2=(x1x)2+(x2x)2+...+(xnx)2n1=1n1i=1n(xix)2s^2 = \frac{(x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + ... + (x_n - \overline{x})^2}{n-1} = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \overline{x})^2

Sind von den nn Zahlen die unterschiedlichen Werte x1,x2,...,xkx_1, x_2, ..., x_k der Merkmalsausprägung mit den dazugehörigen absoluten Häufigkeiten HiH_i bekannt, so berechnet sich die empirische Varianz s2s^2 analog: s2=H1(x1x)2+H2(x2x)2+...+Hk(xkx)2n1=1n1i=1kHi(xix)2s^2 = \frac{H_1 \cdot (x_1 - \overline{x})^2 + H_2 \cdot (x_2 - \overline{x})^2 + ... + H_k \cdot (x_k - \overline{x})^2}{n-1} = \frac{1}{n-1} \sum_{i=1}^{k} H_i(x_i - \overline{x})^2

Weil hier die Abweichungen der Datenwerte vom Mittelwert quadriert werden, hat die Varianz nicht die Einheit der Datenwerte. Sind die Datenwerte beispielsweise Schraubenlängen in Millimeter, so hat die Varianz die Einheit mm². Würden die Schraubenlängen nun in cm angegeben, dann wäre die Streuung zehnmal kleiner, während die Varianz hundertmal kleiner werden würde. Ein besseres Streuungsmass erhalten Sie durch Ziehen der Wurzel, was problemlos möglich ist, da die Varianz immer positiv ist.

Empirische Standardabweichung Die empirische Standardabweichung ss der nn Zahlen x1,x2,...,xnx_1, x_2, ..., x_n einer Grundgesamtheit mit Mittelwert x\overline{x} ist wie folgt definiert: s=(x1x)2+(x2x)2+...+(xnx)2n1=1n1i=1n(xix)2s = \sqrt{\frac{(x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + ... + (x_n - \overline{x})^2}{n-1}} = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \overline{x})^2}

Sind von den nn Zahlen die unterschiedlichen Werte x1,x2,...,xkx_1, x_2, ..., x_k der Merkmalsausprägung mit den dazugehörigen absoluten Häufigkeiten HiH_i bekannt, so gilt: s=H1(x1x)2+H2(x2x)2+...+Hk(xkx)2n1=1n1i=1kHi(xix)2s = \sqrt{\frac{H_1 \cdot (x_1 - \overline{x})^2 + H_2 \cdot (x_2 - \overline{x})^2 + ... + H_k \cdot (x_k - \overline{x})^2}{n-1}} = \sqrt{\frac{1}{n-1} \sum_{i=1}^{k} H_i(x_i - \overline{x})^2}

Beispiel: Schrauben, Teil II Jetzt sind Sie in der Lage, die Streuung der Schraubenlängen zu berechnen. Für den Durchschnitt bekommen Sie bei den Herstellern A und B jeweils x80.021\overline{x} \approx 80.021 mm (S. 9 Schrauben, Teil I). Die Varianz und die Streuung beim Hersteller A berechnen Sie nun mit den obigen Formeln: sA2=0.012 mm2s_A^2 = 0.012 \text{ mm}^2 und sA=0.11 mms_A = 0.11 \text{ mm}. Lassen Sie den Ausreisser bei den Schraubenlängen des Herstellers A weg, so erhalten Sie xA=80.013\overline{x}_A^* = 80.013 mm und für die Streuung die Werte (sA)2=0.0069 mm2(s_A^*)^2 = 0.0069 \text{ mm}^2 und sA=0.083 mms_A^* = 0.083 \text{ mm}. Das Beispiel zeigt, dass die Standardabweichung stark auf Ausreisser reagiert. Für die Varianz und die Streuung des Herstellers B erhalten Sie sB2=0.10 mm2s_B^2 = 0.10 \text{ mm}^2 und sB=0.32 mms_B = 0.32 \text{ mm}. Aus sA<sBs_A < s_B folgt, dass die Schraubenlängen beim Hersteller A tendenziell näher am Mittelwert liegen als beim Hersteller B.

0.5 Boxplot

Um genauere Aussagen über die Verteilung von Daten machen zu können, reichen Lage- und Streuungsmasse nicht aus. Ein Boxplot bietet eine schnelle und differenzierte Übersicht über die Verteilung der Datenwerte, die weniger Platz benötigt als ein Histogramm. Insbesondere eignet sich der Boxplot gut, die Verteilungen mehrerer Datensätze miteinander zu vergleichen. Dazu wird die Liste von Datenwerten der Grösse nach geordnet. Der Median (Zentralwert) teilt diese geordnete Liste der Datenwerte in eine untere und eine obere Teilliste. Nun werden die beiden Teillisten weiter unterteilt:

Die Idee besteht darin, die Datenwerte in vier Klassen aufzuteilen:

Quartilsdifferenz Die Differenz aus dem oberen und dem unteren Quartil r=q3q1r = q_3 - q_1 wird als Quartilsdifferenz bezeichnet. Die Quartilsdifferenz ist ein Streuungsmass. 50% der Werte liegen zwischen q1q_1 und q3q_3. Die Quartilsdifferenz ist, im Gegensatz zur Spannweite und zur Standardabweichung, nicht sehr empfindlich gegenüber Ausreissern.

Boxplot Ein Boxplot (Kastenschaubild) fasst die fünf Lageparameter Minimum, Maximum, Median, unteres Quartil und oberes Quartil einer Datenliste in einem Diagramm zusammen. Ein Boxplot besteht immer aus einem Rechteck (Box) und zwei Linien mit je einem Schlussstrich, die dieses Rechteck verlängern. Diese Linien werden als «Antenne» oder «Whisker» bezeichnet und an ihnen lässt sich die Spannweite sofort ablesen. Die Box gibt an, in welchem Bereich die mittleren 50% der Daten liegen und der rote Strich in der Box bezeichnet den Median. Aufgrund des einfachen Aufbaus von Boxplots werden diese hauptsächlich verwendet, um sich schnell einen Überblick über bestehende Daten zu verschaffen.

Beispiel: Schrauben, Teil III Die erhaltenen Daten der Schraubenlängenmessungen können dank den Boxplots einfach miteinander verglichen werden.

Hersteller xminx_{min} q1q_1 q2q_2 q3q_3 xmaxx_{max}
A 79.8 80.0 80.0 80.1 80.7
A (ohne Ausreisser) 79.8 80.0 80.0 80.1 80.2
B 79.3 79.8 80.0 80.25 80.7

Anhand der Boxplots sehen Sie sofort, dass die Schraubenlängen des Herstellers A viel weniger streuen als jene des Herstellers B.

Beispiel: Tageshöchsttemperaturen Es wurden an verschiedenen Orten die Tageshöchsttemperaturen gemessen, ausgewertet und als Boxplot dargestellt. Aus der Grafik können Sie folgendes ablesen:

0.6 Regression und Korrelation

Bis jetzt wurde jeweils ein Merkmal einer Grundgesamtheit anhand von Stichproben untersucht und mithilfe von Diagrammen und Kenngrössen wie Mittelwert oder Standardabweichung charakterisiert. Werden jetzt von einer Grundgesamtheit mehrere Merkmale gleichzeitig untersucht, so stellt sich oft die Frage, ob zwischen den verschiedenen Merkmalen ein Zusammenhang besteht. Gibt es z. B. einen Zusammenhang zwischen dem Alter xix_i eines Kindes und dessen Körpergrösse yiy_i oder zwischen dem Monatslohn xix_i einer Näherin in einem bestimmten Land und deren Lebenserwartung yiy_i?

Einen ersten Hinweis darauf, ob ein allenfalls vermuteter Zusammenhang zwischen xix_i und yiy_i tatsächlich vorliegt oder aus der Datenerhebung geschlossen werden darf, erhalten Sie, wenn Sie die Punkte (xiyi)(x_i|y_i) in einem Koordinatensystem darstellen. Diese Art der Darstellung nennt sich Streudiagramm. Die folgenden vier Streudiagramme illustrieren mögliche Zusammenhänge oder Abhängigkeiten zwischen zwei Grössen, wie sie im Alltag immer wieder auftreten.

Ein Streudiagramm kann einen Hinweis darauf geben, ob ein Zusammenhang zwischen den beiden Merkmalen xix_i und yiy_i (mit gleichem ii) besteht. Was anhand des Streudiagramms nicht unmittelbar beantwortet werden kann, ist die Frage nach dem Grund eines optisch ersichtlichen Zusammenhanges. In der Regel sind die Punkte (xiyi)(x_i|y_i) weder rein zufällig verteilt (wie etwa bei den geworfenen Augenzahlen xix_i und yiy_i zweier verschiedenfarbiger Würfel), noch besteht ein deterministischer Zusammenhang zwischen den Werten xix_i und yiy_i (wie bei einem physikalischen Gesetz, anhand dessen sich beispielsweise die Fallhöhe yy formelmässig direkt aus der Fallzeit xix_i berechnen lässt). Im ersten Fall sind die Augenzahlen xix_i und yiy_i unabhängig voneinander, es besteht kein Zusammenhang zwischen den beiden Werten. Im zweiten Fall dagegen besteht eine strenge Abhängigkeit (Kausalität) zwischen der Fallzeit xix_i und der Fallhöhe yiy_i, die sich durch eine Formel darstellen lässt. Die typischen alltäglichen Situationen von Korrelationen liegen meist irgendwo dazwischen.

Die Aussage «Je grösser ein Mensch ist, umso schwerer ist er» stimmt sicher nicht in jedem Fall. Ganz falsch ist die Aussage aber dennoch nicht. Gibt es eine Möglichkeit, den Zusammenhang zwischen Körpergewicht und Körpergrösse in geeigneter Weise mathematisch zu beschreiben?

Für die weiteren Untersuchungen benötigst du Antworten auf die beiden folgenden Fragen:

  1. Das Regressionsproblem: Kann die Beziehung zwischen den beiden Grössen xix_i und yiy_i mit einer möglichst einfachen Gleichung der Art y=f(x)y=f(x) angenähert beschrieben werden? Wir beschränken uns dabei auf die lineare Regression, die Funktion ff soll demnach linear sein. Das Bild von ff wird dann Regressionsgerade oder Ausgleichsgerade genannt.
  2. Das Korrelationsproblem: Kann die «Güte» oder «Stärke» des (linearen) Zusammenhangs durch ein geeignetes Mass beschrieben werden? Dazu wird der Korrelationskoeffizient rr definiert. Es gilt 1r1-1 \le r \le 1.

Beispiel: Körpergrösse und Körpergewicht, Teil I In einer Stichprobe wurden Körpergrösse und Gewicht von 10 jungen Männern als Messdaten erfasst.

xx (cm) 188.0 177.8 182.9 182.9 170.2 185.4 175.3 175.3 182.9 172.7
yy (kg) 88.45 86.64 102.06 92.99 81.65 83.46 82.55 68.95 87.54 79.38

Es soll untersucht werden, wie stark der Zusammenhang zwischen der Körpergrösse und dem Körpergewicht ist. Einen ersten Anhaltspunkt erhalten Sie durch die grafische Darstellung aller Punktepaare P(xy)P(x|y) (Grösse|Gewicht).

Es besteht die Vermutung, dass zwischen der Grösse xix_i und dem Gewicht yiy_i ein linearer Zusammenhang der Art yi=f(xi)=mxi+qy_i = f(x_i) = m \cdot x_i + q besteht, d. h. mit zunehmender Grösse nimmt auch das Gewicht zu. Allerdings gibt es keine Gerade, die durch alle Punkte geht. Daher soll eine Gerade bestimmt werden, die möglichst «ausgeglichen» durch die eingezeichneten Punkte verläuft. Die mittlere Abweichung der Punkte von der Geraden soll demnach möglichst gering sein.

Wie kommen Sie nun rechnerisch auf eine entsprechende Gerade y=mx+qy = mx + q? Zunächst berechnen Sie die beiden Mittelwerte x\overline{x} und y\overline{y}. Der Punkt (xy)(\overline{x}|\overline{y}) stellt dann den «Schwerpunkt» der Punktwolke im Streudiagramm dar. Die zu bestimmende Gerade wird durch diesen «Schwerpunkt» gelegt. Liegt der Punkt (xiyi)(x_i|y_i) auf der Geraden mit der Gleichung y=mx+qy=mx+q, so gilt yi=mxi+qy_i = mx_i + q. Liegt der Punkt (xiyi)(x_i|y_i) nicht auf der Geraden, so kann die Abweichung zwischen Punkt und Geraden bestimmt werden. Dazu wird nicht der kürzeste Abstand zwischen Punkt und Gerade verwendet, sondern der vertikale Abstand di=yi(mxi+q)d_i = y_i - (mx_i + q), da dieser besonders einfach zu berechnen ist. Dabei besagt das Vorzeichen von did_i, ob der Punkt (xiyi)(x_i|y_i) ober- oder unterhalb der gesuchten Geraden liegt.

Aus den gleichen Überlegungen wie bei der Definition der Varianz, wird die Streuung der Punkte um diese Gerade durch die Summe der quadrierten Abweichungen berechnet: F(m,q)=i=1ndi2=i=1n(yi(mxi+q))2F(m, q) = \sum_{i=1}^{n} d_i^2 = \sum_{i=1}^{n} (y_i - (mx_i + q))^2

Jetzt wird die Bedingung verwendet, dass die Gerade durch den «Schwerpunkt» (xy)(\overline{x}|\overline{y}) verlaufen muss. Durch Einsetzen in der Geradengleichung erhalten Sie q=ymxq = \overline{y} - m\overline{x} und somit: F~(m)=i=1n(yi(mxi+ymx))2=i=1n((yiy)m(xix))2\tilde{F}(m) = \sum_{i=1}^{n} (y_i - (mx_i + \overline{y} - m\overline{x}))^2 = \sum_{i=1}^{n} ((y_i - \overline{y}) - m(x_i - \overline{x}))^2

Die gesuchte Regressionsgerade erhalten Sie, indem Sie mm so bestimmen, dass F~(m)\tilde{F}(m) minimal wird. Dazu kann die erste Ableitung von F~(m)\tilde{F}(m) gleich null gesetzt werden: F~(m)=0\tilde{F}'(m) = 0. Wird die Gleichung F~(m)=0\tilde{F}'(m)=0 nach mm aufgelöst, so erhalten Sie: m=i=1n(xix)(yiy)i=1n(xix)2m = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i - \overline{y})}{\sum_{i=1}^{n} (x_i - \overline{x})^2}

Beispiel: Körpergrösse und Körpergewicht, Teil II Für die beiden Mittelwerte erhalten Sie x=179.34\overline{x} = 179.34 cm und y=85.4\overline{y} = 85.4 kg. Durch Einsetzen in die Formel erhalten Sie m0.83m \approx 0.83 kg/cm und damit folgt q63.28q \approx -63.28 kg/cm. Die Geradengleichung lautet somit: y=0.83x63.28y = 0.83x - 63.28

Eine Regressionsgerade, die Sie anhand gegebener Merkmalspaare (xi;yi)(x_i; y_i) bestimmen können, beschreibt jeweils nur sehr grob die Lage der Punktwolke respektive der Verteilung der dazugehörigen Punkte. Sie gibt Ihnen auch keinen Hinweis darauf, wie nahe die einzelnen Punkte (xiyi)(x_i|y_i) bei ihr liegen, d. h. wie gut sie die den Datenpaaren zugrunde liegende Punktwolke tatsächlich beschreibt. Was Ihnen dazu fehlt, ist eine passende Kenngrösse: der Korrelationskoeffizient rr.

Es wird hier auf eine Herleitung der Formel zur Berechnung von rr verzichtet, da jene den Rahmen dieses Buches für das Grundlagenfach deutlich sprengen würde. Der Wert für rr kann mit dem Taschenrechner oder einer geeigneten Software berechnet werden.

Korrelationskoeffizient Der Korrelationskoeffizient für eine Menge von nn Merkmalspaaren (xiyi)(x_i|y_i) berechnet sich gemäss der folgenden Formel: r=i=1n(xix)(yiy)i=1n(xix)2i=1n(yiy)2r = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i - \overline{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \overline{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \overline{y})^2}}

Hinweis: Die beiden Faktoren im Nenner kommen auch schon bei der Berechnung der Standardabweichung ss vor, der Zähler bei der Steigung mm.

Beispiel: Körpergrösse und Körpergewicht, Teil III Berechnen Sie den Korrelationskoeffizient für dieses Beispiel, so erhalten Sie r=0.56r = 0.56. Dies entspricht einer mittleren positiven Korrelation.

Eigenschaften des Korrelationskoeffizienten r Der Korrelationskoeffizient kann Werte zwischen -1 und +1 annehmen: 1r1-1 \le r \le 1.

Beispiel: Fluoridgehalt und Kariesrate Der Fluoridgehalt im Trinkwasser von sechs Städten beträgt: (x1,x2,...,x6)=(0,7,12,14,21,24)(x_1, x_2, ..., x_6) = (0, 7, 12, 14, 21, 24) mg pro 100 Liter. Die Kariesrate in % liegt bei den Kindern in diesen sechs Städten bei: (y1,y2,...,y6)=(20,18,12,14,6,5)(y_1, y_2, ..., y_6) = (20, 18, 12, 14, 6, 5). Zeichnen Sie die Punktepaare in einem Koordinatensystem ein, so bekommen Sie das nebenstehende Bild. Es lässt bereits eine hohe lineare Korrelation vermuten. Es sollen die Regressionsgerade und der Korrelationskoeffizient berechnet werden. Mit einem passenden Programm erhalten Sie die zu bestimmenden Werte direkt. Für dieses Beispiel soll aber auch der Weg «von Hand» aufgeschrieben werden.

Zuerst berechnen Sie die beiden Mittelwerte: x=0+7+12+14+21+246=13\overline{x} = \frac{0+7+12+14+21+24}{6} = 13 und y=20+18+12+14+6+56=12.5\overline{y} = \frac{20+18+12+14+6+5}{6} = 12.5 Somit erhalten Sie den «Schwerpunkt» (13/12.5).

Die Steigung mm erhalten Sie durch Einsetzen in die entsprechende Formel: m=(013)(2012.5)+(713)(1812.5)+...+(2413)(512.5)(013)2+(713)2+...+(2413)2=2633920.67m = \frac{(0-13)(20-12.5) + (7-13)(18-12.5) + ... + (24-13)(5-12.5)}{(0-13)^2 + (7-13)^2 + ... + (24-13)^2} = -\frac{263}{392} \approx -0.67

Setzen Sie nun den «Schwerpunkt» (13 | 12.5) und die berechnete Steigung mm in der Geradengleichung y=mx+qy = mx + q ein, so erhalten Sie q21.22q \approx 21.22 und somit die Gleichung der Regressionsgeraden: y=0.67x+21.22y = -0.67x + 21.22

Den Korrelationskoeffizienten erhalten Sie ebenfalls durch Einsetzen in die entsprechenden Formel, wobei Sie den Zähler bereits für die Steigung berechnet haben. Für den Nenner können Sie auch jeweils die mit n1\sqrt{n-1} multiplizierten Standardabweichungen ss der beiden Merkmales sx=8.08s_x = 8.08 und sy=5.59s_y = 5.59 verwenden. r=263(8.086)(5.596)0.97r = \frac{-263}{(8.08 \cdot \sqrt{6})(5.59 \cdot \sqrt{6})} \approx -0.97

In diesem Fall gibt es einen hohen statistischen Zusammenhang. Ob hier ein kausaler (ursächlicher) Zusammenhang vorliegt, müsste mit zusätzlichen Überlegungen und Abklärungen untersucht werden. Eine hohe Korrelation bedeutet nicht, dass ein kausaler Zusammenhang zwischen den beiden Merkmalen besteht. Eine hohe Korrelation zwischen zwei Variablen bedeutet nur, dass das eine Merkmal ziemlich genau vorhergesagt werden kann, wenn das andere Merkmal bekannt ist. Im Beispiel Fluorid und Kariesrate ist für die Begründung eines kausalen Zusammenhangs entscheidend, dass es eine biologische Erklärung gibt, warum Fluorid Karies reduziert. Eine hohe Korrelation kann auch dadurch entstehen, dass ein drittes Merkmal ziz_i sowohl xix_i als auch yiy_i beeinflusst. Dabei ist es oft nicht einfach herauszufinden, was denn ein solches drittes Merkmal sein könnte.

Korrelation und Kausalität Es ist wichtig, dass zwischen einer Korrelation, d. h. einem statistischen Zusammenhang zweier Variablen, der auf einem hohen Wert des Absolutbetrages des Korrelationskoeffizienten basiert, und einer Kausalität, d. h. einer tatsächlichen Auswirkung von einer Variablen auf die andere Variable, unterschieden wird. Eine Korrelation zwischen zwei Merkmalen xix_i und yiy_i bedeutet noch nicht, dass yiy_i ein Verursacher von xix_i ist (oder xix_i ein Verursacher von yiy_i). Dieses Phänomen wird Scheinkorrelation genannt. Eine starke Korrelation kann nämlich auch dadurch zustande kommen, dass eine dritte Variable, die nicht erfasst wurde, die beiden betrachteten Merkmale beeinflusst.

Beispiel: Störche Das bekannteste Beispiel für eine Scheinkorrelation ist wohl die hohe Korrelation zwischen der Anzahl Storchenpaare und der Anzahl Geburten in verschiedenen Ländern Europas. Die Korrelation (oder der statistische Zusammenhang) kann folgendermassen formuliert werden: In Ländern mit vielen Storchenpaaren gibt es tendenziell mehr Geburten. Eine Kausalität würde hingegen so formuliert: Die Anzahl Storchenpaare in einem Land hat einen direkten Einfluss auf die Anzahl der Geburten. Das ist offensichtlicher Unsinn.

Beispiel: Starke Korrelation ohne Kausalität Weitere bekannte Beispiele für eine starke Korrelation ohne Kausalität sind: a) Bei einem Brand korreliert die Anzahl Feuerwehrleute im Einsatz mit der Grösse des Brandschadens. Es besteht jedoch keine Kausalität. Ansonsten könnte einfach die Anzahl der Feuerwehrleute am Einsatzort reduziert werden, um den Brandschaden möglichst klein zu halten. Die gemeinsame Ursache dieser Variablen ist die Grösse des Brandes, die sowohl den Brandschaden als auch die notwendige Anzahl an Feuerwehrkräften zur Löschung des Brandes bestimmt. b) Eine längere Verweildauer im Krankenhaus korreliert mit einem schlechteren Gesundheitszustand nach dem Krankenhausaufenthalt. Auch hier besteht offensichtlich kein kausaler Zusammenhang. Die dritte Variable ist hier der Gesundheitszustand der Patienten vor der Einlieferung in das Krankenhaus. Dieser beeinflusst die Dauer des Aufenthaltes und den Gesundheitszustand nach der Entlassung massgeblich. Patienten mit schweren Erkrankungen benötigen eine längere Behandlung und weisen einen schlechteren Gesundheitszustand nach ihrer Entlassung auf als Personen mit leichteren Erkrankungen. c) Eine höhere Oberflächentemperatur (Klimaerwärmung) auf der nördlichen Hemisphäre der Erde geht mit einer signifikant höheren Lebenserwartung einher. Vermutlich wird dieser Zusammenhang durch diverse Drittvariablen verursacht, wie etwa die Industrialisierung und gleichzeitige Verbesserung der medizinischen Versorgung der Bevölkerung.

0.7 Aufgaben

:: exercise #title

  1. Getränkeflaschen #content Bei Getränken stimmen die angegebenen Füllmengen oft nicht genau. Deshalb möchte ein Getränkehersteller seine Produktion überprüfen und testet 20 beliebige 1.5-Liter-Flaschen. Er erhält die folgenden Messergebnisse (alle Angaben in Litern): 1.51, 1.49, 1.57, 1.50, 1.53, 1.50, 1.48, 1.46, 1.52, 1.54, 1.50, 1.49, 1.50, 1.48, 1.55, 1.53, 1.53, 1.50, 1.51, 1.50.

a) Berechnen Sie die durchschnittliche Füllmenge, den Median und geben Sie die Spannweite der Füllmengen an. Ist das Ergebnis verbraucherfreundlich? Begründen Sie Ihre Antwort! b) Bestimmen Sie die Standardabweichung der gegebenen Datenmenge. c) Geben Sie für vier andere 1.5-Literflaschen mögliche Füllmengen (stets unterschiedlich) an und zwar so, dass die Standardabweichung ungefähr 0.1 Liter beträgt. Beachten Sie: Es können nicht alle Abweichungen positive Werte annehmen. Warum ist das so?

#solution

a) Kennzahlen

b) Standardabweichung s0.026 Liters \approx 0.026 \text{ Liter}

c) Beispielwerte für s0.1s \approx 0.1 Mögliche Werte: 1.4, 1.4, 1.6, 1.6 (Mittelwert 1.5). Begründung zur Abweichung: Die Summe der Abweichungen vom Mittelwert (xixˉ)\sum(x_i - \bar{x}) ist stets 0. Wenn es Werte gibt, die grösser als der Mittelwert sind (positive Abweichung), muss es zwingend Werte geben, die kleiner sind (negative Abweichung), damit sich die Summe ausgleicht. ::

:: exercise #title 2. Samenkerne #content Es wurden 178 Früchte einer bestimmten Pflanze untersucht und in jeder Frucht die Anzahl Samenkerne gezählt. Berechnen Sie anhand der nachfolgenden Tabelle die Werte xˉ\bar{x} und ss.

xix_i: Anzahl Samenkerne pro Frucht 3 4 5 6 7 8 9 10 11
nin_i: Anzahl Früchte 8 12 13 22 45 63 23 1 1

#solution

:: exercise #title 3. Milchleistung #content Auf einem Bauernhof wird die tägliche Milchleistung von Kühen statistisch erfasst und in folgender Tabelle zusammengefasst:

Milchleistung (l) [15, 25) [25, 30) [30, 35) [35, 40) [40, 50)
Anzahl Kühe H 12 14 25 17 10

Bestimmen Sie die durchschnittliche Milchleistung und die Standardabweichung und stellen Sie die Daten als Histogramm dar.

#solution

:: exercise #title 4. 100m-Lauf #content Bei einem Übungswettkampf mit 600 Teilnehmenden wurden die Ergebnisse im 100 m-Lauf in Klassen eingeteilt. Daraus hat sich die rechts abgebildete Tabelle ergeben.

Klassengrenzen (s) absolute Häufigkeit
[11.0, 11.2) 4
[11.2, 11.4) 7
[11.4, 11.6) 18
[11.6, 11.8) 27
[11.8, 12.0) 59
[12.0, 12.2) 96
[12.2, 12.4) 101
[12.4, 12.6) 97
[12.6, 12.8) 82
[12.8, 13.0) 47
[13.0, 13.2) 30
[13.2, 13.4) 19
[13.4, 13.6) 5
[13.6, 13.8) 8

a) Berechnen Sie die relativen Häufigkeiten der 100 m-Lauf-Ergebnisse und zeichnen Sie ein Histogramm. b) Berechnen Sie die Standardabweichung. c) Welcher prozentuale Anteil aller Teilnehmenden lief eine Zeit unter 11.8s? Welcher prozentuale Anteil lief eine Zeit zwischen 11.8 s und 12.8s?

#solution

a) Relative Häufigkeiten (Beispiele)

b) Standardabweichung Berechnet über die Klassenmitten (11.1, 11.3, ...): s0.50 ss \approx 0.50 \text{ s} (bei einem Mittelwert von 12.36 s\approx 12.36 \text{ s})

c) Prozentuale Anteile

:: exercise #title 5. Zahnräder #content Eine Firma benötigt für ihre Produktion 10'000 Zahnräder mit einem Durchmesser von d=20d=20 mm ±0.2\pm 0.2 mm. Von den fünf Zahnradproduzenten A, B, C, D und E kennt die Firma nebenstehende Daten.

A B C D E
xˉ\bar{x} (mm) 20.01 19.96 20.10 19.98 20.05
ss (mm) 0.24 0.05 0.03 0.18 0.06

Bei welchem Produzenten sollte die Firma ihre Zahnräder bestellen? Begründen Sie Ihre Antwort.

#solution

Die Firma sollte bei Produzent E bestellen (oder C, wenn man nachjustieren kann).

Begründung:

:: exercise #title 6. Arbeitsweg #content Herr Müller notiert an verschiedenen Tagen die Zeiten in Minuten, die er für seinen Weg zur Arbeit benötigt: 55, 56, 51, 56, 25, 58, 55, 56, 56, 50, 52.

a) Berechnen Sie den Median. Formulieren Sie einen Satz, der ausdrückt, was der Wert des Medians in diesem Beispiel bedeutet. b) Ermitteln Sie Minimum und Maximum sowie das untere und obere Quartil. c) Herr Müller vertraut dem kleinsten Wert nicht und streicht ihn aus der Liste. Ermitteln Sie Median und Quartile der neuen Datenliste. Vergleichen Sie die neuen Werte mit den Werten der ersten Liste und beschreiben Sie Ihre Beobachtungen. Haben Sie eine Erklärung dafür? d) Können Sie einen möglichen Grund nennen, warum Herr Müller den kleinsten Wert aus der Liste für unwahrscheinlich hält? Worauf könnte der Wert zurückzuführen sein? e) Zeichnen Sie einen Boxplot der neuen Datenliste.

#solution

a) Median Sortierte Liste (n=11): 25, 50, 51, 52, 55, 55, 56, 56, 56, 56, 58. Median = 55 Minuten. Bedeutung: An der Hälfte der erfassten Tage war Herr Müller 55 Minuten oder schneller, an der anderen Hälfte 55 Minuten oder langsamer unterwegs.

b) Quartile (mit n=11)

c) Ohne Ausreisser (25) Neue Liste (n=10): 50, 51, 52, 55, 55, 56, 56, 56, 56, 58.

d) Grund für Ausreisser 25 Minuten ist extrem kurz (weniger als die Hälfte der üblichen Zeit). Mögliche Gründe: Feiertag (leere Strassen), anderes Verkehrsmittel, Tippfehler oder er wurde mitgenommen. ::

:: exercise #title 7. Schraubenlänge #content In einer Firma werden Schrauben gefertigt, sie sollen 80 mm lang sein. Bei einer Qualitätskontrolle werden aus der Produktion 90 Schrauben entnommen und deren Länge gemessen. Das Ergebnis ist in einer Häufigkeitstabelle dargestellt.

Länge (in mm) 79.7 79.8 79.9 80.0 80.1 80.2 80.3
abs. Häufigkeit H 12 7 14 22 17 10 8

a) Bestimmen Sie die Quartile und stellen Sie die Daten als Boxplot dar. b) Bestimmen Sie die durchschnittliche Länge der Schrauben und die Standardabweichung.

#solution

a) Quartile (n=90)

b) Mittelwert & Standardabweichung

:: exercise #title 8. Pygmäen #content Im Jahr 1909 hatte der Schweizer Anthropologe Otto Schlaginhaufen im Torricelligebirge auf der Insel Neuguinea die Körperlänge von Pygmäen gemessen (Schlaginhaufen, 1914) und die folgende Urliste erhalten (Angaben in mm). Berechnen Sie die Spannweite R, den Mittelwert, die Standardabweichung s und stellen Sie die Daten aus der Stichprobe als Boxplot dar.

(Liste der 30 Werte siehe Originaltext Aufgabe 8)

#solution

:: exercise #title 9. Berg-Flockenblume #content Bei der Berg-Flockenblume (Centaurea montana) variiert die Anzahl der Randblüten ziemlich stark. Eine Stichprobe von 50 Exemplaren dieser Berg-Flockenblumen lieferte die nachfolgende Tabelle (Wagner, 1957). Berechnen Sie den Mittelwert und die Standardabweichung s.

Anzahl Blütenblätter 10 11 12 13 14 15 16 17
Absolute Häufigkeit 3 6 8 9 12 7 3 2

#solution

:: exercise #title 10. Pizzalieferung #content Luca bestellt sich seine Pizza häufig bei Speedy-Pizza. Er notiert sich jedes Mal die Zeit zwischen Bestellung und Lieferung der Pizzen in Minuten: Lieferzeiten Speedy-Pizza: 21, 14, 16, 22, 16, 18, 24, 15, 19, 17, 23, 16, 13

a) Bestimmen Sie den Mittelwert, den Modus und den Median der Datenreihe. b) Zeichnen Sie den dazugehörigen Boxplot. c) Luca hat unterdessen noch einen weiteren Pizzalieferanten ausprobiert. Auch hier notiert er sich die Lieferzeiten in Minuten: Lieferzeiten Rapid-Pizza: 14, 19, 16, 15, 21, 22, 20, 18, 23, 17 Wie schnell muss Rapid-Pizza die nächste Pizza liefern, damit die durchschnittliche Lieferzeit die gleiche ist wie bei Speedy-Pizza?

#solution

a) Kennzahlen Speedy-Pizza (n=13)

b) Boxplot Min=13, q1q_1=15.5, Med=17, q3q_3=21.5, Max=24.

c) Rapid-Pizza Bisherige Summe Rapid (10 Werte): 185. Ziel-Durchschnitt: 18. Neue Anzahl n=11. Gleichung: 185+x11=18185+x=198x=13\frac{185 + x}{11} = 18 \Rightarrow 185 + x = 198 \Rightarrow x = 13. Antwort: Die nächste Pizza muss in 13 Minuten geliefert werden. ::

:: exercise #title 11. Physik-Olympiade #content Anlässlich der Internationalen Physik-Olympiade (IPhO 2016) in Zürich standen viele Helferinnen und Helfer, sogenannte «Guides» im Einsatz. Im Jahrbuch war bei einem Grossteil der gut hundert Guides der Jahrgang angegeben.

(Daten siehe Originaltext Aufgabe 11)

a) Berechnen Sie den Mittelwert, den Modus, den Median, Minimum und Maximum, die Spannweite sowie die (empirische) Standardabweichung dieser Jahrgangszahlen und zeichnen Sie den dazugehörigen Boxplot. b) Welches durchschnittliche Alter hatten diese Guides Anfang Juli 2016? (Runden Sie auf ganze Monate und setzen Sie das durchschnittliche Geburtsdatum jeden Jahrgangs auf den 1. Juli.)

#solution

a) Kennzahlen

b) Durchschnittsalter Bezugsjahr 2016. 20161990.925.12016 - 1990.9 \approx 25.1 Jahre. Antwort: ca. 25 Jahre und 1 Monat. ::

:: exercise #title 12. Regression (klein) #content Gegeben sind die fünf Datenpaare (x;y)(x; y): (3;3), (5;2), (1;8), (4;2), (2;5). Bestimmen Sie die Gleichung der Regressionsgeraden und berechnen Sie den Korrelationskoeffizienten.

#solution

:: exercise #title 13. Sportlerinnen #content Bei zehn Sportlerinnen wurden zu Beginn und am Ende einer längeren Trainingsperiode Leistungsmessungen durchgeführt. Dabei wurden die folgenden Punktzahlen erzielt:

(Tabelle siehe Aufgabe 13)

Bestimmen Sie die Gleichung der Regressionsgeraden und berechnen Sie den Korrelationskoeffizienten r.

#solution

:: exercise #title 14. Preisentwicklung #content Zur Untersuchung der Preisentwicklung eines Artikels sind Stichproben erhoben worden. Von neun zufällig ausgewählten Lieferanten wurde je der Artikelpreis Mitte Juni und Mitte Dezember festgehalten. Berechnen Sie anhand der nachfolgenden Tabelle den Korrelationskoeffizienten r.

(Tabelle siehe Aufgabe 14)

#solution

:: exercise #title 15. Würfel-Experiment #content Führen Sie mit zwei unterscheidbaren Würfeln – beispielsweise mit einem schwarzen und einem weissen – gleichzeitig 30 Würfe durch und notieren Sie die jeweils geworfenen Augenzahlen als geordnete Wertepaare (si;wi)(s_i; w_i). Berechnen Sie den dazugehörigen Korrelationskoeffizienten r. Wiederholen Sie diese Wurfserien mehrere Male und berechnen Sie jedes Mal das dazugehörige r. Kommentieren Sie Ihre Ergebnisse.

#solution

Erwartetes Ergebnis: Da die beiden Würfel unabhängig voneinander fallen, gibt es keinen systematischen Zusammenhang zwischen den Augenzahlen. Der berechnete Korrelationskoeffizient rr wird nahe bei 0 liegen (schwankend z. B. zwischen -0.2 und +0.2). Es liegt keine Korrelation vor. ::

:: exercise #title 16. Scheinkorrelation #content Vielfach besteht die Gefahr, dass eine starke oder hohe Korrelation voreilig einen kausalen Zusammenhang zwischen den beobachteten Merkmalspaaren vermuten lässt. (Beispiel Störche im Text) Suchen Sie weitere Beispiele solcher Scheinkorrelationen.

#solution

Beispiele für Scheinkorrelationen:

:: exercise #title 17. Parabel & Muster #content a) Bestimmen Sie für die Stichprobe der fünf Zahlenpaare (-2; 4), (-1; 1), (0; 0), (1; 1) und (2; 4) den Korrelationskoeffizienten r. Was schliessen Sie daraus? b) Berechnen Sie für die Merkmalspaare (2.1; 1.1), (3.9; 1.9) ... (siehe Text) den Korrelationskoeffizienten und beurteilen Sie den (linearen) Zusammenhang. Fassen Sie die zehn Merkmalspaare als Koordinaten von Punkten auf und übertragen Sie diese in ein ebenes Koordinatensystem. Kommentieren Sie Ihr Ergebnis.

#solution

a) Parabel (y=x2y=x^2)

b) Spezielle Punkte