Streumasse
Streumasse beschreiben, wie stark die Streuung von Datenpunkten
auf der Zahlengeraden ist. Ein Streumass beschreibt also einen anderen Aspekt einer Datenmenge als das Lagemass. In der Tat können zwei Datensätze den gleichen Durchschnitt besitzen, aber eine andere Streuung haben (siehe Beispiel unten).
Gegeben seien folgende Noten zweier Personen:
Beide Personen haben eine Notenschnitt von
Die Streuung ist aber unterschiedlich. P1 hat konsequent Noten Nahe bei , die Streuung ist also klein. Person P2 hingegen kann sehr schlechte, aber auch sehr gute Noten haben. Die Streuung ist also grösser.
Wie können wir aber diese Streuung mit einer Zahl charakterisieren? Dazu gibt es verschiedene Methoden:
Spannweite
Die Spannweite der Datenpunkte ist , daher die Differenz des grössten und kleinsten Datenpunkt. Je grösser die Spannweite, desto grösser die Streuung der Datenpunkte.
Im Beispiel mit den Noten ist die Spannweite für P1 gegeben durch und für P2 ist sie .
Standardabweichung
Die Standardabweichung ist wohl das populärste Streumass, definitiert durch
Die Kernidee hier ist, die Abweichung (oder Differenz) jeden Datenpunkts von Durchschnitt
zu bestimmen, und den Durchschnitt dieser Abweichungen zu berechnen. Je grösser diese mittlere Abweichung, desto grösser muss die Streuung der Datenpunkte sein.
In der Tat, bei den Noten gilt für P1, dass
und für P2 ist sie grössser,
Es sei hier noch bemerkt, dass die Abweichungen quadriert werden, damit alle Abweichungen positive sind, und sich so die positiven und negativen Differenzen nicht aufheben können. Die Wurzel wird gezogen, damit die Einheiten des Mittelwerts und der Standardabweichungen gleich sind.
Quartilsdifferenz
Die Quartilsdifferenz ist ein weiteres populäres Mass für die Streuung. Wir kennen bereits den Median (Lagemass). Zur Errinnerung, der Median teilt die aufsteigend sortierten Datenpunkte in zwei gleich grosse Listen. Dieser Median wird übrigens auch 2. Quartil genannt (oft mit bezeichnet). Der Median der linken Liste (mit den kleineren Werten) nennen wir 1. Quartil (), und den Median der rechten Liste (mit den grösseren Werten) nennen wir 3.Quartil (). Wir haben nun die Liste in 4 Teillisten zerlegt, wobei jede dieser Teillisten der Daten enthält:
Die Quartilsdifferenz ist die Differenz . Je grösser dieser Wert, desto grösser ist die Streuung der mittleren 50 Prozent der Daten.
Im Beispiel der Noten haben wir:
Boxplot
Der Median (Lagemass) und die Streung gegeben durch die Quartilsdifferenz von Daten wird oft mit einem sogenannten Boxplot representiert:
Beachte, dass die einzelnen Datenpunkte nicht immer eingtragen werden. Oft hilft es aber, dies zu tun.
Gegeben sind die Datenpunkte
Bestimme die Quartile und .
Solution
Sortierte Daten
Somit:
Geben sind die folgenden Daten über Schraubenlängen (in cm) zweier Schraubenfabriken und :
Fertige für jede Fabrik Boxplots an. Bei welcher Fabrik ist es besser, die Schrauben zu kaufen?
Solution
Wie die Boxplots zeigen, produziert Fabrik Schrauben mit genauerer Länge, und ist somit bevorzugt.
