Beschreibende Statistik

Exercise 1: Beschreibende Statistik

Erkläre anhand der Daten 2,5,1,3,52,5,1,3,5 die folgenden Begriffe:

  1. Durchschnitt, Standardabweichung, Modus

  2. Median, 1. Quartil, 3. Quartil, und Interquartilsabstand

  3. Boxplot

  4. Was ist eine diskrete Häufigkeitsverteilung? Was ist ein Balkendiagramm?

  5. Was ist ein kontinuierlicher Datensatz? Was ist ein Hisotgramm?

Solution
  1. Es ist:

    • Der Durchschnitt is der mittlere oder typische Wert: x=2+5+1+3+55=3.2\overline{x}=\frac{2+5+1+3+5}{5}=3.2
    • Die Standardabweichung ist die typische Abweichung vom Durchschnitt: s=(23.2)2+(53.2)2+(13.2)2+(33.2)2+(53.2)25=1.6s=\sqrt{\frac{(2-3.2)^2+(5-3.2)^2+(1-3.2)^2+(3-3.2)^2+(5-3.2)^2}{5}}=1.6
    • Der Modus ist der Datenpunkt, der am häufigsten vorkommt: 55. Beachte, dass der Modus aus mehreren Zahlen bestehen kann. Zum Beispiel für die Datenreihe 2,5,1,2,52,5,1,2,5 is der Modus 22 und 55.
  2. Wir sortieren zuerst die Daten aufsteigend: 1,2,3,5,51,2,3,5,5.

    • Der Median ist die mittlere Zahl: m=3m=3. Beachte, dass bei einer geraden Anzahl von Datenpunkten zwei mittlere Zahlen gibt. Man nimmt dann den Durchschnitt aus diesen beiden Zahlen. Zum Beispiel:
      • der Median der Datenreihe 1,2,3,3,5,51,2,3,3,5,5 ist der Durchschnitt der zwei Zahlen 33 und 33, also m=3+32=3m=\frac{3+3}{2}=3.
      • Oder, der Median der Datenreihe 1,2,3,4,5,51,2,3,4,5,5 ist der Durchschnitt der zwei Zahlen 33 und 44, also m=3+42=3.5m=\frac{3+4}{2}=3.5.
    • Das 1. Quartil ist der Median der Datenreihe links vom Median m=3m=3. Also der Median der Zahlen 1,21,2, also q1=1+22=1.5q_1=\frac{1+2}{2}=1.5
    • Das 3. Quartil ist der Median der Datenreihe rechts vom Median m=3m=3. Also der Median der Zahlen 5,55,5, also q3=5+52=5q_3=\frac{5+5}{2}=5
    • Der Interquartilsabstand ist I=q3q1=51.5=3.5I=q_3-q_1=5-1.5=3.5
  3. Der Boxplot ist unten eingezeichnet. Es ist eine graphische Representation des mittleren Werts der Daten (Median) und der Streuung der Daten (1. und 2. Quartil).

  1. Ein diskreter Datensatz besteht aus Zählungen (etwa Anzahl Schüler und Schülerinnen in einer Klasse). Zum Beispiel, beim 10-maligen würfeln erhalten wir den diskreten Datensatz:

    2,5,4,6,5,5,5,4,2,42,5,4,6,5,5,5,4,2,4

    (hier zählen wir die Anzahl Punkte auf der Würfeloberfläche). Die diskrete Häufigkeitsverteilung ist eine Tabelle die besagt, wie oft jede dieser Zahlen von 11 bis 66 vorkommt:

    xiHa¨ufrel Ha¨uf yi100220.2300430.3540.4610.1\begin{array}{|l|c|c} x_i & \text{Häuf} & \text{rel Häuf } y_i \\\hline 1 & 0 & 0\\ 2 & 2 & 0.2\\ 3 & 0 & 0\\ 4 & 3 & 0.3\\ 5 & 4 & 0.4\\ 6 & 1 & 0.1\\ \end{array}

    Die grafische Darstellung der relativen Häufigkeiten mit Balkenhöhen wird Balkendiagramm genannt.

  2. Ein kontinuierlicher Datensatz besteht aus (ungerundeten) Messungen (etwa wägen einer Melone). Zum Beispiel, messen wir die Körpergrössen von Schülern (in cm), erhalten wir den Datensatz

    157.34,167.76,150.32,176.3,194.3,156.3,177.2,171.2,195.2,150.21157.34, 167.76, 150.32, 176.3, 194.3, 156.3, 177.2, 171.2, 195.2, 150.21

    was wir mit einem kontinuierlichen Häufigkeitsverteilung zusammenfassen können. Dazu bilden wir Klassen, und zählen, wie viele Datenpunkte in jeder Klasse ist. Wichtig: wir berechnen auch die Dichte, daher die relative Häufigkeit geteilt durch die Klassenbreite:

    Klasse iHa¨ufrel Ha¨uf yiDichte di15016040.40.0416017010.10.0117018030.30.0318019020.20.02\begin{array}{|c|c|c|c|} \text{Klasse } i & \text{Häuf} & \text{rel Häuf } y_i & \text{Dichte } d_i \\\hline 150-160 & 4 & 0.4 & 0.04\\ 160-170 & 1 & 0.1 & 0.01\\ 170-180 & 3 & 0.3 & 0.03\\ 180-190 & 2 & 0.2 & 0.02\\ \end{array}

    Hier ist die Klassenbreite Δx=10\Delta x=10cm. Die grafische Darstellung der Dichten mit Balken wird Histogramm genannt. Die Höhe des Balkens ist die Dichte, die Breite ist Δx\Delta x. Somit is die Fläche eines Balkens die relative Häufigkeit.

Exercise 2: Analyse eines diskreten Datensatzes

Das Altersprofil in einer Personengruppe sieht wie folgt aus:

Alter101215204547Anzahl Personen723574\begin{array}{|l|l|l|l|l|l|l|}\hline \text{Alter} & 10 & 12 & 15 & 20 & 45 & 47\\\hline \text{Anzahl Personen} & 7 & 2 & 3 & 5 & 7 & 4\\\hline \end{array}

Bestimme den Mittelwert, Modus und Boxplot des Alters. Wie gross ist der Interquartilsabstand?

Solution
  • Mittelwert: x=70+24+45+100+315+18828=74228=26.5\overline{x}=\frac{70+24+45+100+315+188}{28}=\frac{742}{28}=26.5
  • Modus: 10,4510, 45
  • Median: Mittelwert von der 14. und 15. Zahl, also m=20+202=20m=\frac{20+20}{2}=20.
  • Erstes Quartil: Datenreihe besteht aus den ersten 13 Zahlen (1-13), Median ist die 7. Zahl, also q1=10q_1=10.
  • Drittes Quartil: Datenreihe besteht aus den letzten 13 Zahlen (15-28), Median ist die 22. Zahl, also q3=45q_3=45.
  • Interquartilsabstand I=q3q1=4510=35I=q_3-q_1=45-10=35
Exercise 3: Analyse eines kontinuierlichen Datensatzes

Bestimme und skizziere das Histogramm der Daten in der Tabelle unten (Grösse von Schülern).

Klasse iHa¨uf15016020160170301701805018019020\begin{array}{|c|c|} \text{Klasse } i & \text{Häuf}\\\hline 150-160 & 20 \\ 160-170 & 30 \\ 170-180 & 50 \\ 180-190 & 20 \\ \end{array}
Solution

Die Balkenbreite ist Δx=10\Delta x=10, die Anzahl Schüler und Schülerinnen ist 120120. Die Verteilung ist also

Klasse iHa¨ufrel. Ha¨ufDichte150160200.1660.0166160170300.250.025170180500.4160.0416180190200.1660.0166\begin{array}{|c|c|c|c|} \text{Klasse } i & \text{Häuf} & \text{rel. Häuf} & \text{Dichte}\\\hline 150-160 & 20 & 0.166 & 0.0166\\ 160-170 & 30 & 0.25 & 0.025\\ 170-180 & 50 & 0.416 & 0.0416\\ 180-190 & 20 & 0.166 & 0.0166\\ \end{array}

Das Histogramm ist unten gezeigt. Ignoriere das Rote.