Diskrete und kontinuierliche ZV und Daten

Wir verlassen nun die reine Wahrscheinlichkeitstheorie und begeben uns auf das Gebiet der Statistik. Die Statistik befasst sich in der Regel mit Datensätzen, die in Experimenten und Erhebungen gewonnen werden. Auf der Grundlage dieser Datensätze wollen wir dann oft weitreichende Schlussfolgerungen ziehen, z. B. dass Männer einen niedrigeren IQ haben als Frauen (oder umgekehrt). Die Statistik kann uns sagen, wie gültig eine solche Schlussfolgerung auf der Grundlage des vorliegenden Datensatzes ist.

Dennoch brauchen wir die Wahrscheinlichkeitstheorie, einfach weil Datensätze das Ergebnis von Zufallsfaktoren sind. Die Auswahl der Person, die wir für die Messung des IQ ausgewählt haben, erfolgt zum Beispiel oft nach dem Zufallsprinzip. Wir wählen einfach eine Person nach dem Zufallsprinzip aus und messen den IQ dieser Person. Es lohnt sich also, einen Datensatz mit Hilfe der Wahrscheinlichkeitstheorie zu definieren:

Definition 1

Betrachten wir ein Zufallsexperiment und eine Zufallsvariable XX. Wir wiederholen das Experiment mm Mal. Wir erinnern uns, dass eine Zufallsvariable für jedes Ergebnis des Experiments einen Wert liefert. Wenn wir also das Experiment mm Mal wiederholen, erhalten wir mm Werte. Wir nennen diese mm konkreten Werte einen Datensatz (oder auch eine Stichprobe).

Note 1

Just a test

Example 1
  1. Ein Zufallsexperiment ist das zweimalige Würfeln mit einem Würfel (fair oder gezinkt). Wenn XX="die Summe der beiden Zahlen" ist, und wenn wir das Experiment m=10m=10 mal wiederholen, könnten wir den folgenden Datensatz erhalten:

    2,7,4,12,12,3,6,8,6,42, 7, 4, 12, 12, 3, 6, 8, 6, 4
  2. Messung der Grösse von 100100 zufällig ausgewählten Personen. Hier lautet das Zufallsexperiment "wähle eine Person zufällig aus", XX="Grösse der Person" und m=100m=100. Ein möglicher Datensatz könnte wie folgt aussehen (Höhe in cmcm):

    167.6767676,156.3201,160.553,200.0021,...167.6767676, 156.3201, 160.553, 200.0021, ...
  3. Das dreimalige Werfen einer Münze ist ein Zufallsexperiment. Wenn wir XX="Anzahl der Köpfe" definieren und das Experiment m=5m=5 mal wiederholen, könnten wir den folgenden Datensatz erhalten:

    1,0,3,0,21,0,3,0,2

Wir unterscheiden zwischen zwei Typen von Zufallsvariablen oder Datensätzen.

Definition 2

Wenn die Zufallsvariable XX nur bestimmte Werte als Ausgang hat, nennen wir XX und den entsprechenden Datensatz diskret. Kann XX jeden möglichen Wert innerhalb eines bestimmten Intervalls annehmen, so nennt man XX und den entsprechenden Datensatz kontinuierlich.

Note 2

Als Faustregel gilt: Daten, die durch Zählen gewonnen werden, sind diskret, während Daten, die durch Messen gewonnen werden, kontinuierlich sind.

Example 2
  • Die obigen Beispiele 1 und 3 sind diskret, Beispiel 2 ist kontinuierlich.
  • Die Zufallsvariable NN (Anzahl Erfolge) in einem Binomialexperiment ist eine diskrete Zufallsvariable.
Exercise 1

Bestimme ein mögliches Zufallsexperiment, und ob die Zufallsvariable XX diskret oder kontinuierlich ist:

  1. XX="die Länge eines Blattes"

  2. XX="die Anzahl der Schüler in einer Klasse"

  3. XX="das Gewicht eines Hundes"

  4. XX="die genaue Menge Wasser in einer 1l1 l-Flasche"

  5. XX="die Geburtsdaten einer Person"

Solution
  1. kontinuierlich, mögliches Zufallsexperiment ist "wähle zufällig ein Blatt in einem Wald".
  2. diskret, mögliches Zufallsexperiment ist "wähle eine Klasse zufällig aus"
  3. kontinuierlich, mögliches Zufallsexperiment ist "wähle einen Hund in der Stadt nach dem Zufallsprinzip".
  4. kontinuierlich, mögliches Zufallsexperiment ist "wähle eine Flasche Wasser in der Migros nach dem Zufallsprinzip".
  5. Das ist knifflig ... wenn wir nur am genauen Datum interessiert sind (z.B. 23-4-1988), ist es diskret, aber wenn wir an der exakten Zeit interessiert sind, ist es kontinuierlich. Ein mögliches Zufallsexperiment wäre: "Wählen Sie eine Person auf der Strasse nach dem Zufallsprinzip aus."

Wir haben bereits den Mittelwert mm und die Standardabweichung ss verwendet, um einen Datensatz zu beschreiben. Eine dritte Methode ist die Erstellung einer Häufigkeitsverteilung. Die Häufigkeitsverteilung sagt uns, welche Werte des Datensatzes wie oft vorkommen. In den nächsten beiden Abschnitten werden wir die Häufigkeitsverteilung getrennt für diskrete und kontinuierliche Daten diskutieren.