Streumasse

Streumasse beschreiben, wie stark die Streuung von mm Datenpunkten

x1,...,xmx_1,...,x_m

auf der Zahlengeraden ist. Ein Streumass beschreibt also einen anderen Aspekt einer Datenmenge als das Lagemass. In der Tat können zwei Datensätze den gleichen Durchschnitt besitzen, aber eine andere Streuung haben (siehe Beispiel unten).

Example 1

Gegeben seien folgende Noten zweier Personen:

P1:3,3,4,4P2:1,2,5,6\begin{array}{ll} P1: & 3,3,4,4\\ P2: & 1,2,5,6 \end{array}

Beide Personen haben eine Notenschnitt von

x=3+3+4+44=1+2+5+64=3.5\overline{x}=\frac{3+3+4+4}{4}=\frac{1+2+5+6}{4}=3.5

Die Streuung ist aber unterschiedlich. P1 hat konsequent Noten Nahe bei 3.53.5, die Streuung ist also klein. Person P2 hingegen kann sehr schlechte, aber auch sehr gute Noten haben. Die Streuung ist also grösser.

Wie können wir aber diese Streuung mit einer Zahl charakterisieren? Dazu gibt es verschiedene Methoden:

Spannweite

Die Spannweite der Datenpunkte ist xmaxxminx_{max}-x_{min}, daher die Differenz des grössten und kleinsten Datenpunkt. Je grösser die Spannweite, desto grösser die Streuung der Datenpunkte.

Example 2

Im Beispiel mit den Noten ist die Spannweite für P1 gegeben durch 43=14-3=1 und für P2 ist sie 61=56-1=5.

Standardabweichung

Die Standardabweichung ist wohl das populärste Streumass, definitiert durch

s=(x1x)2+(x1x)2+(x1x)2+...+(xmx)2ms=\sqrt{\frac{(x_1-\overline{x})^2+(x_1-\overline{x})^2+(x_1-\overline{x})^2 +...+(x_m-\overline{x})^2}{m}}

Die Kernidee hier ist, die Abweichung (oder Differenz) jeden Datenpunkts von Durchschnitt

x1xx2x...xmx\begin{array}{l} x_1-\overline{x}\\ x_2-\overline{x}\\ ...\\ x_m-\overline{x}\\ \end{array}

zu bestimmen, und den Durchschnitt dieser Abweichungen zu berechnen. Je grösser diese mittlere Abweichung, desto grösser muss die Streuung der Datenpunkte sein.

Example 3

In der Tat, bei den Noten gilt für P1, dass

s=(33.5Abw 1)2+(33.5Abw 2)2+(43.5Abw 3)2+(43.5Abw 4)24=0.5s=\sqrt{\frac{(\underbrace{3-3.5}_{\text{Abw 1}})^2+(\underbrace{3-3.5}_{\text{Abw 2}})^2+(\underbrace{4-3.5}_{\text{Abw 3}})^2+(\underbrace{4-3.5}_{\text{Abw 4}})^2}{4}}=0.5

und für P2 ist sie grössser,

s=(13.5)2+(23.5)2+(53.5)2+(63.5)24=1.93s=\sqrt{\frac{(1-3.5)^2+(2-3.5)^2+(5-3.5)^2+(6-3.5)^2}{4}}=1.93

Es sei hier noch bemerkt, dass die Abweichungen x1x,x2x,...,xmxx_1-\overline{x}, x_2-\overline{x}, ..., x_m-\overline{x} quadriert werden, damit alle Abweichungen positive sind, und sich so die positiven und negativen Differenzen nicht aufheben können. Die Wurzel wird gezogen, damit die Einheiten des Mittelwerts und der Standardabweichungen gleich sind.

Quartilsdifferenz

Die Quartilsdifferenz ist ein weiteres populäres Mass für die Streuung. Wir kennen bereits den Median (Lagemass). Zur Errinnerung, der Median teilt die aufsteigend sortierten Datenpunkte in zwei gleich grosse Listen. Dieser Median wird übrigens auch 2. Quartil genannt (oft mit Q2Q_2 bezeichnet). Der Median der linken Liste (mit den kleineren Werten) nennen wir 1. Quartil (Q1Q_1), und den Median der rechten Liste (mit den grösseren Werten) nennen wir 3.Quartil (Q3Q_3). Wir haben nun die Liste in 4 Teillisten zerlegt, wobei jede dieser Teillisten 25%25\% der Daten enthält:

Die Quartilsdifferenz ist die Differenz Q3Q1Q_3-Q_1. Je grösser dieser Wert, desto grösser ist die Streuung der mittleren 50 Prozent der Daten.

Example 4

Im Beispiel der Noten haben wir:

Q1Q2Q3P133.54P21.53.55.5\begin{array}{r|rrr} & Q_1 & Q_2 & Q_3 \\\hline P1 & 3 & 3.5 & 4 \\\hline P2 & 1.5 & 3.5 & 5.5 \end{array}

Boxplot

Der Median (Lagemass) und die Streung gegeben durch die Quartilsdifferenz von Daten wird oft mit einem sogenannten Boxplot representiert:

Beachte, dass die einzelnen Datenpunkte nicht immer eingtragen werden. Oft hilft es aber, dies zu tun.

Exercise 1

Gegeben sind die Datenpunkte

5.5,4,3.5,6,6,5,5,4.25,3.755.5, 4, 3.5, 6, 6,5,5,4.25,3.75

Bestimme die Quartile Q1,Q2Q_1,Q_2 und Q3Q_3.

Solution

Sortierte Daten

3.5,3.75,4,4.25,5,5,5.5,6,63.5, 3.75, 4, 4.25, 5 ,5, 5.5, 6, 6

Somit: Q2=5,Q1=3.75+42=3.875,Q3=5.5+62=5.75Q_2=5, Q_1=\frac{3.75+4}{2}=3.875, Q_3=\frac{5.5+6}{2}=5.75

Exercise 2

Geben sind die folgenden Daten über Schraubenlängen (in cm) zweier Schraubenfabriken AA und BB:

FabrikxminQ1Q2Q3xmaxA79.880.080.080.180.5B79.379.880.080.2180.5\begin{array}{l|lllll} \text{Fabrik} & x_{min} & Q_1 & Q_2 & Q_3 & x_{max} \\\hline A & 79.8 & 80.0 & 80.0 & 80.1 & 80.5 \\ B & 79.3 & 79.8 & 80.0 & 80.21 & 80.5 \end{array}

Fertige für jede Fabrik Boxplots an. Bei welcher Fabrik ist es besser, die Schrauben zu kaufen?

Solution

Wie die Boxplots zeigen, produziert Fabrik AA Schrauben mit genauerer Länge, und ist somit bevorzugt.