Mittelwert und Standardabweichung von Daten

Betrachte eine Liste von Daten, z.B. die Noten eines Schülers:

4,6,3.5,3,64, 6, 3.5, 3, 6

Den Durchschnittswert, Mittelwert oder das arithmetische Mittel der Noten erhält man, indem man die Summe der Noten bildet und durch die Anzahl der Noten dividiert:

m=4+6+3.5+3+65=4.5m = \frac{4+6+3.5+3+6}{5}=4.5

Der Durchschnittswert gibt an, was der typische Wert ist, oder der Wert, der "irgendwo in der Mitte liegt". Der Mittelwert berechnet also einen "Ort" oder "Lage" auf dem Zahlenstrahl, und wird deshalb auch Lagemass genannt. Es gibt noch etliche weitere Lagemasse, wie etwa der Median, oder die Quantile. Wir werden diese aber nicht besprechen.

Ein weiteres interessantes Mass drückt aus, wie stark die Daten variieren. Ein anderer Schüler mit der gleichen Durchschnittsnote von 4.54.5, aber mit einer viel geringeren Abweichung (z. B. fünfmal 4.54.5) zeigt eindeutig eine andere Leistung. Um solche Schwankungen in den Daten zu qualifizieren, verwenden wir die Standardabweichung. Da die Standardabweichung die Streuung der Daten misst, wird sie auch als Streumass bezeichnet. Wiederum gibt es noch etliche andere Möglichkeiten, Streuung zu messen.

Die Standardabweichung wird mit der folgenden Formel berechnet:

s=(44.5)2+(64.5)2+(3.54.5)2+(34.5)2+(64.5)25=1.6=1.26\begin{array}{lll} s &=& \sqrt{\frac{(4-4.5)^2+(6-4.5)^2+(3.5-4.5)^2+(3-4.5)^2+(6-4.5)^2}{5}}\\ &=&\sqrt{1.6}\\ &=&1.26\end{array}

Diese Formel sieht kompliziert aus, aber ihre Bedeutung ist recht einfach zu verstehen: es ist die durchschnittliche Abweichung der Datenpunkte vom Mittelwert (siehe Abbildung unten).

Der Term (44.5)2(4-4.5)^2 ist die Differenz zwischen dem Mittelwert 4.54.5 und dem Datenpunkt 44, quadriert. Wir quadrieren ihn, damit die Differenz immer positiv ist. Die Formel berechnet also den Durchschnitt der quadrierten Differenzen zwischen dem Mittelwert und den Datenpunkten und zieht die Wurzel aus diesem Durchschnitt.

Eine Standardabweichung s=0s=0 bedeutet natürlich, dass es überhaupt keine Schwankungen gibt und alle Datenpunkte genau 4.54.5 entsprechen. Je grösser ss ist, desto mehr weichen die Datenpunkte vom Mittelwert ab (siehe Abbildung unten).

Einige Klarstellungen:

Die allgemeine Definition des Durchschnitts und der Standardabweichung ist wie folgt:

Definition 1

Man betrachte nn Datenpunkte x1,...,xnx_1, ..., x_n. Der Mittelwert der Datenpunkte ist

m=1ni=1nxi=x1+...+xnn\begin{array}{lll} m &=& \frac{1}{n}\sum_{i=1}^n x_i \\ &=& \frac{x_1+...+x_n}{n} \end{array}

und die Standardabweichung (vom Mittelwert) ist

s=1ni=1n(xim)2=(x1m)2+...+(xnm)2n\begin{array}{lll} s &=& \sqrt{\frac{1}{n}\sum_{i=1}^n (x_i-m)^2} \\ &=& \sqrt{\frac{(x_1-m)^2+...+(x_n-m)^2}{n}} \end{array}

Die Varianz der Datenpunkt ist die Standardabweichung quadriert: v=s2v=s^2

Exercise 1
  1. Bestimme den Mittelwert, die Standardabweichung und die Varianz der Datenpunkte

    30,43,21.2,030, 43, 21.2, 0
  2. Betracht 10001000 Melonen, von denen 20%20\% ein Gewicht von 3.2kg3.2 kg, 50%50\% ein Gewicht von 3.5kg3.5 kg und die restlichen 30%30\% ein Gewicht von 4.1kg4.1 kg haben. Bestimme das mittlere Gewicht und die Standardabweichung.

Solution
  1. m=23.55,s=15.65,v=245m=23.55, s=15.65, v=245

  2. 200200 haben ein Gewicht von 3.2kg3.2 kg, 500500 Melonen haben ein Gewicht von 3.5kg3.5 kg, und 300300 Melonen haben ein Gewicht von 4.1kg4.1 kg. Wir haben also

    m=2003.2+5003.5+3004.11000=2003.21000+5003.51000+3004.11000=0.23.2+0.53.5+0.34.1=3.62kgs=200(3.23.62)2+500(3.53.62)2+300(4.13.62)21000=200(3.23.62)21000+500(3.53.62)21000+300(4.13.62)21000=0.2(3.23.62)2+0.5(3.53.62)2+0.3(4.13.62)2=0.334kg\begin{array}{lll} m &=& \frac{200\cdot 3.2 + 500\cdot 3.5 + 300\cdot 4.1}{1000}\\ &=& \frac{200\cdot 3.2}{1000} + \frac{500\cdot 3.5}{1000} + \frac{300\cdot 4.1}{1000}\\ &=& 0.2\cdot 3.2 + 0.5\cdot 3.5 + 0.3\cdot 4.1\\ &=& \underline{3.62 kg}\\ s &=& \sqrt{\frac{200\cdot (3.2-3.62)^2+500\cdot (3.5-3.62)^2+300\cdot (4.1-3.62)^2}{1000}}\\ &=& \sqrt{\frac{200\cdot (3.2-3.62)^2}{1000}+\frac{500\cdot (3.5-3.62)^2}{1000}+\frac{300\cdot (4.1-3.62)^2}{1000}}\\ &=& \sqrt{0.2\cdot (3.2-3.62)^2+ 0.5\cdot (3.5-3.62)^2 + 0.3\cdot (4.1-3.62)^2}\\ &=& \underline{0.334 kg} \end{array}

Die Lösung der zweiten Übung 1.2 zeigt eine interessante Erkenntnis, die im nächsten Kapitel wichtig sein wird: Wenn viele der Datenpunkte gleich sind, können wir die Prozentsätze verwenden, um mm und ss sehr einfach zu berechnen. Tatsächlich müssen wir nicht einmal die Gesamtzahl der Datenpunkte kennen. Hier ist ein Beispiel.

Example 1

Nehmen wir an, dass 35%35\% der Datenpunkte den Wert 7.17.1 haben und die restlichen 65%65\% der Datenpunkte den Wert 99 besitzen. Der Mittelwert und die Standardabweichung der Datenpunkte sind:

m=0.357.1+0.659=8.335m=0.35\cdot 7.1 + 0.65\cdot 9=8.335s=0.35(7.18.335)2+0.65(98.335)2=0.90624s=\sqrt{0.35\cdot (7.1-8.335)^2 + 0.65\cdot (9-8.335)^2}=0.90624

Falls noch nicht ganz klar ist, wieso das so ist, dann klicke rechts für eine Erklärung.

Solution

Nehmen wir an, dass es nn Datenpunkte gibt (z.B. n=1000n=1000). Es gibt 0.35n0.35 n Datenpunkte mit dem Wert 7.17.1 und 0.65n0.65 n Datenpunkte mit dem Wert 99. Es gibt auch 0.35n0.35 n quadrierte Differenzen (7.1m)2(7.1-m)^2 und 0.65n0.65n quadrierte Differenzen (9m)2(9-m)^2. Also

m=0.35n7.1+0.65n9n=0.35n7.1n+0.65n9n=0.357.1+0.659=8.335s=0.35n(7.1m)2+0.65n(9m)2n=0.35n(7.18.335)2n+0.65n(98.335)2n=0.35(7.18.335)2+0.65(98.335)2=0.906\begin{array}{lll} m &=& \frac{0.35n \cdot 7.1 + 0.65n\cdot 9}{n}\\ &=& \frac{0.35\cdot n\cdot 7.1}{n} + \frac{0.65\cdot n\cdot 9}{n}\\ &=& 0.35\cdot 7.1+0.65\cdot 9\\ &=& 8.335\\ s &=& \sqrt{\frac{0.35n \cdot (7.1-m)^2 + 0.65n\cdot (9-m)^2}{n}}\\ &=& \sqrt{\frac{0.35\cdot n\cdot (7.1-8.335)^2}{n} + \frac{0.65\cdot n\cdot (9-8.335)^2}{n}}\\ &=& \sqrt{0.35\cdot (7.1-8.335)^2 + 0.65\cdot (9-8.335)^2}\\ &=& 0.906 \end{array}