Mittelwert und Standardabweichung von Daten

Betrachte eine Liste von Daten, z.B. die Noten eines Schülers:

4, 6, 3.5, 3, 6

Den Durchschnittswert, Mittelwert oder das arithmetische Mittel der Noten erhält man, indem man die Summe der Noten bildet und durch die Anzahl der Noten dividiert:

m = \frac{4+6+3.5+3+6}{5}=4.5

Der Durchschnittswert gibt an, was der typische Wert ist, oder der Wert, der "irgendwo in der Mitte liegt". Der Mittelwert berechnet also einen "Ort" oder "Lage" auf dem Zahlenstrahl, und wird deshalb auch Lagemass genannt. Es gibt noch etliche weitere Lagemasse, wie etwa der Median, oder die Quantile. Wir werden diese aber nicht besprechen.

Ein weiteres interessantes Mass drückt aus, wie stark die Daten variieren. Ein anderer Schüler mit der gleichen Durchschnittsnote von $4.5$ , aber mit einer viel geringeren Abweichung (z. B. fünfmal $4.5$ ) zeigt eindeutig eine andere Leistung. Um solche Schwankungen in den Daten zu qualifizieren, verwenden wir die Standardabweichung. Da die Standardabweichung die Streuung der Daten misst, wird sie auch als Streumass bezeichnet. Wiederum gibt es noch etliche andere Möglichkeiten, Streuung zu messen.

Die Standardabweichung wird mit der folgenden Formel berechnet:

\begin{array}{lll} s &=& \sqrt{\frac{(4-4.5)^2+(6-4.5)^2+(3.5-4.5)^2+(3-4.5)^2+(6-4.5)^2}{5}}\\ &=&\sqrt{1.6}\\ &=&1.26\end{array}

Diese Formel sieht kompliziert aus, aber ihre Bedeutung ist recht einfach zu verstehen: es ist die durchschnittliche Abweichung der Datenpunkte vom Mittelwert (siehe Abbildung unten).

Der Term $(4-4.5)^2$ ist die Differenz zwischen dem Mittelwert $4.5$ und dem Datenpunkt $4$ , quadriert. Wir quadrieren ihn, damit die Differenz immer positiv ist. Die Formel berechnet also den Durchschnitt der quadrierten Differenzen zwischen dem Mittelwert und den Datenpunkten und zieht die Wurzel aus diesem Durchschnitt.

Eine Standardabweichung $s=0$ bedeutet natürlich, dass es überhaupt keine Schwankungen gibt und alle Datenpunkte genau $4.5$ entsprechen. Je grösser $s$ ist, desto mehr weichen die Datenpunkte vom Mittelwert ab (siehe Abbildung unten).

Einige Klarstellungen:

Warum wollen wir nur positive Differenzen verwenden? Die Differenz kann ja positiv oder negativ sein, und der Mittelwert dieser Differenzen kann durchaus nahe bei $0$ sein, obwohl die Daten stark variieren. Betrachten wir zum Beispiel die Datenpunkte
$-5, 5, 3$
Der Mittelwert ist
$m = \frac{-5+5+3}{3}=1$
Offensichtlich gibt es einige Schwankungen, und die Standardabweichung ist in der Tat weit von Null entfernt mit
$s=\sqrt{\frac{(-6)^2+4^2+2^2}{3}}=4.32$
Der Durchschnitt der Differenz ist jedoch Null, da einige der Differenzen positiv, andere negativ sind:
$\sqrt{\frac{-6+4+2}{3}}=0$
Um dies zu vermeiden nehmen wir deshalb eine positive Differenz. Wird könnten den Betrag der Differenz nehmen, aber meistens wird einfach die Differenz quadriert.
Warum die Wurzel? Oft haben Datenpunkte Einheiten, wie zum Beispiel Meter. Der Mittelwert wird ebenfalls in Metern angegeben, und wir wollen, dass die Standardabweichungen ebenfalls in Metern angegeben werden. Ohne die Wurzel zu ziehen, ist die Standardabweichung jedoch in Quadratmetern, weil wir die Differenzen quadrieren, die ebenfalls in Metern angegeben sind.

Die allgemeine Definition des Durchschnitts und der Standardabweichung ist wie folgt:

Definition 1

Man betrachte $n$ Datenpunkte $x_1, ..., x_n$ . Der Mittelwert der Datenpunkte ist

\begin{array}{lll} m &=& \frac{1}{n}\sum_{i=1}^n x_i \\ &=& \frac{x_1+...+x_n}{n} \end{array}

und die Standardabweichung (vom Mittelwert) ist

\begin{array}{lll} s &=& \sqrt{\frac{1}{n}\sum_{i=1}^n (x_i-m)^2} \\ &=& \sqrt{\frac{(x_1-m)^2+...+(x_n-m)^2}{n}} \end{array}

Die Varianz der Datenpunkt ist die Standardabweichung quadriert: $v=s^2$

Exercise 1

Bestimme den Mittelwert, die Standardabweichung und die Varianz der Datenpunkte
$30, 43, 21.2, 0$
Betracht $1000$ Melonen, von denen $20\%$ ein Gewicht von $3.2 kg$ , $50\%$ ein Gewicht von $3.5 kg$ und die restlichen $30\%$ ein Gewicht von $4.1 kg$ haben. Bestimme das mittlere Gewicht und die Standardabweichung.

Solution

$m=23.55, s=15.65, v=245$
$200$ haben ein Gewicht von $3.2 kg$ , $500$ Melonen haben ein Gewicht von $3.5 kg$ , und $300$ Melonen haben ein Gewicht von $4.1 kg$ . Wir haben also
$\begin{array}{lll} m &=& \frac{200\cdot 3.2 + 500\cdot 3.5 + 300\cdot 4.1}{1000}\\ &=& \frac{200\cdot 3.2}{1000} + \frac{500\cdot 3.5}{1000} + \frac{300\cdot 4.1}{1000}\\ &=& 0.2\cdot 3.2 + 0.5\cdot 3.5 + 0.3\cdot 4.1\\ &=& \underline{3.62 kg}\\ s &=& \sqrt{\frac{200\cdot (3.2-3.62)^2+500\cdot (3.5-3.62)^2+300\cdot (4.1-3.62)^2}{1000}}\\ &=& \sqrt{\frac{200\cdot (3.2-3.62)^2}{1000}+\frac{500\cdot (3.5-3.62)^2}{1000}+\frac{300\cdot (4.1-3.62)^2}{1000}}\\ &=& \sqrt{0.2\cdot (3.2-3.62)^2+ 0.5\cdot (3.5-3.62)^2 + 0.3\cdot (4.1-3.62)^2}\\ &=& \underline{0.334 kg} \end{array}$

Die Lösung der zweiten Übung 1.2 zeigt eine interessante Erkenntnis, die im nächsten Kapitel wichtig sein wird: Wenn viele der Datenpunkte gleich sind, können wir die Prozentsätze verwenden, um $m$ und $s$ sehr einfach zu berechnen. Tatsächlich müssen wir nicht einmal die Gesamtzahl der Datenpunkte kennen. Hier ist ein Beispiel.

Example 1

Nehmen wir an, dass $35\%$ der Datenpunkte den Wert $7.1$ haben und die restlichen $65\%$ der Datenpunkte den Wert $9$ besitzen. Der Mittelwert und die Standardabweichung der Datenpunkte sind:

m=0.35\cdot 7.1 + 0.65\cdot 9=8.335

s=\sqrt{0.35\cdot (7.1-8.335)^2 + 0.65\cdot (9-8.335)^2}=0.90624

Falls noch nicht ganz klar ist, wieso das so ist, dann klicke rechts für eine Erklärung.

Solution

Nehmen wir an, dass es $n$ Datenpunkte gibt (z.B. $n=1000$ ). Es gibt $0.35 n$ Datenpunkte mit dem Wert $7.1$ und $0.65 n$ Datenpunkte mit dem Wert $9$ . Es gibt auch $0.35 n$ quadrierte Differenzen $(7.1-m)^2$ und $0.65n$ quadrierte Differenzen $(9-m)^2$ . Also

\begin{array}{lll} m &=& \frac{0.35n \cdot 7.1 + 0.65n\cdot 9}{n}\\ &=& \frac{0.35\cdot n\cdot 7.1}{n} + \frac{0.65\cdot n\cdot 9}{n}\\ &=& 0.35\cdot 7.1+0.65\cdot 9\\ &=& 8.335\\ s &=& \sqrt{\frac{0.35n \cdot (7.1-m)^2 + 0.65n\cdot (9-m)^2}{n}}\\ &=& \sqrt{\frac{0.35\cdot n\cdot (7.1-8.335)^2}{n} + \frac{0.65\cdot n\cdot (9-8.335)^2}{n}}\\ &=& \sqrt{0.35\cdot (7.1-8.335)^2 + 0.65\cdot (9-8.335)^2}\\ &=& 0.906 \end{array}