Zufallsauswahlmodelle
Aus MM*Stat
Grundbegriffe
Zufallsauswahlmodelle
Man unterscheidet das Zufallsauswahlmodell mit Zurücklegen und ohne Zurücklegen.
Zufallsauswahlmodell mit Zurücklegen
Bei einer Zufallsauswahl mit Zurücklegen hat jedes Element der Grundgesamtheit die gleiche Wahrscheinlichkeit, in die Stichprobe zu gelangen.
Nach der Feststellung der Merkmalsausprägung wird das gezogene Element wieder in die Grundgesamtheit zurückgelegt, bevor das nächste Element gezogen wird.
Dadurch kann ein Element der Grundgesamtheit mehrfach in der Stichprobe enthalten sein.
Durch das Zurücklegen wird jedoch garantiert, dass
- die Stichprobenvariablen unabhängig voneinander sind, denn die Ergebnisse nachfolgender Ziehungen werden nicht durch die Ergebnisse vorhergehender Ziehungen beeinflusst;
- die Verteilung der Zufallsvariablen in der Grundgesamtheit unverändert bleibt. Die Wahrscheinlichkeit, bei der 1. Ziehung einen Wert kleiner oder gleich zu erhalten, ist die gleiche wie bei der 2. Ziehung, bei der 3. Ziehung,... und bei der -ten Ziehung: .
Die Stichprobenvariablen sind somit identisch verteilt.
Ein Zufallsauswahlmodell mit Zurücklegen führt damit zu einer einfachen Zufallsstichprobe.
Zufallsauswahlmodell ohne Zurücklegen
Bei einer Zufallsauswahl ohne Zurücklegen hat jedes Element der Grundgesamtheit ebenfalls die gleiche Wahrscheinlichkeit, in die Stichprobe zu gelangen.
Nach der Feststellung der Merkmalsausprägung wird das gezogene Element jedoch nicht in die Grundgesamtheit zurückgelegt.
Das hat zur Konsequenz, dass sich die Verteilung der Grundgesamtheit von Ziehung zu Ziehung verändert, wodurch die Stichprobenvariablen abhängig voneinander sind.
Eine Zufallsauswahl ohne Zurücklegen führt zu einer uneingeschränkten Zufallsstichprobe, aber nicht zu einer einfachen Zufallsstichprobe.
Diese Unterscheidung in "mit Zurücklegen" und "ohne Zurücklegen" ist jedoch nur für endliche Grundgesamtheiten relevant.
Selbst bei einer endlichen Grundgesamtheit kann man diese Unterscheidung immer mehr vernachlässigen, je umfangreicher die Grundgesamtheit und je kleiner zugleich der Auswahlsatz ist.
Bei großem Umfang der Grundgesamtheit und kleinem Stichprobenumfang verändert sich nach jeder Ziehung ohne Zurücklegen die Verteilung der Grundgesamtheit nur geringfügig.
Als Faustregel gilt, dass bei einem Auswahlsatz eine Zufallsauswahl ohne Zurücklegen näherungsweise als eine einfache Zufallsstichprobe angesehen werden kann.
Neben den hier genannten Zufallsauswahlmodellen gibt es weitere, z.B. geschichtete Auswahl, Klumpenauswahl, mehrstufige Auswahl.
Beispiele
Klausur
An der Klausur zu einer Lehrveranstaltung im Hauptstudium nehmen Studenten teil und erreichen die nachstehenden Punktzahlen.
Tabelle 1:
Student | A | B | C | D | E | F | G |
Punktzahl | 10 | 11 | 11 | 12 | 12 | 12 | 16 |
Für das Merkmal = "Punktzahl der Klausur" resultiert in der Grundgesamtheit folgende Häufigkeitsverteilung.
Tabelle 2:
Aus dieser Verteilung lässt sich für das Merkmal in der Grundgesamtheit der Mittelwert, die Varianz und die Standardabweichung berechnen:
Wird eine Klausur zufällig aus dieser Grundgesamtheit ausgewählt und die Punktzahl festgestellt, so erhält man eine Zufallsvariable, die auch mit bezeichnet wird, da sie inhaltlich gleich dem Merkmal definiert ist, und die Zufallsvariable ebenfalls nur die möglichen Werte 10, 11, 12 oder 16 annehmen kann.
Die relativen Häufigkeiten entsprechen den Wahrscheinlichkeiten, mit denen eine Klausur mit der entsprechenden Punktzahl gezogen wird.
Die Zufallsvariable weist somit die Wahrscheinlichkeitsfunktion und die Verteilungsfunktion wie in der Tabelle 2 angegeben sowie den Erwartungswert und die Varianz auf.
Zufallsauswahl mit Zurücklegen
Aus der Grundgesamtheit werden Klausuren mit Zurücklegen entnommen.
Für die erste Ziehung erhält man eine Zufallsvariable "Punktzahl der ersten gezogenen Klausur" und für die zweite Ziehung entsprechend eine Zufallsvariable "Punktzahl der zweiten gezogenen Klausur".
und sind die beiden Stichprobenvariablen.
Die Tabelle 3 zeigt alle möglichen Stichproben vom Umfang mit Zurücklegen und unter Beachtung der Reihenfolge.
Tabelle 3:
1. Klausur | 2. Klausur | ||||||
10 | 11 | 11 | 12 | 12 | 12 | 16 | |
10 | 10;10 | 10;11 | 10;11 | 10;12 | 10;12 | 10;12 | 10;16 |
11 | 11;10 | 11;11 | 11;11 | 11;12 | 11;12 | 11;12 | 11;16 |
11 | 11;10 | 11;11 | 11;11 | 11;12 | 11;12 | 11;12 | 11;16 |
12 | 12;10 | 12;11 | 12;11 | 12;12 | 12;12 | 12;12 | 12;16 |
12 | 12;10 | 12;11 | 12;11 | 12;12 | 12;12 | 12;12 | 12;16 |
12 | 12;10 | 12;11 | 12;11 | 12;12 | 12;12 | 12;12 | 12;16 |
16 | 16;10 | 16;11 | 16;11 | 16;12 | 16;12 | 16;12 | 16;16 |
Die Wahrscheinlichkeit, eine dieser Stichproben zu erhalten, beträgt .
Aus der Tabelle 3 lassen sich unmittelbar die Wahrscheinlichkeitsfunktion für und ablesen.
Tabelle 4:
Die Wahrscheinlichkeitsfunktionen von und sind identisch und stimmen mit der Wahrscheinlichkeitsfunktion der Zufallsvariablen in der Grundgesamtheit überein.
Aus der Tabelle 3 kann ebenfalls die zweidimensionale Verteilung ermittelt werden.
Tabelle 5:
10 | 11 | 12 | 16 | ||
10 | 1 / 49 | 2 / 49 | 3 / 49 | 1 / 49 | 1 / 7 |
11 | 2 / 49 | 4 / 49 | 6 / 49 | 2 / 49 | 2 / 7 |
12 | 3 / 49 | 6 / 49 | 9 / 49 | 3 / 49 | 3 / 7 |
16 | 1 / 49 | 2 / 49 | 3 / 49 | 1 / 49 | 1 / 7 |
1 |
Die letzte Spalte der Tabelle 5 enthält die Randverteilung von und die letzte Zeile die Randverteilung von , welche exakt der Wahrscheinlichkeitsfunktion aus Tabelle 4 entsprechen.
Für jede Zelle der Tabelle 5, d.h. für alle Wertepaare , folgt:
Die Zufallsvariablen und sind somit Unabhängigkeit.
Fazit:
Da die Stichprobenvariablen und unabhängig und identisch verteilt sind und die gleiche Verteilung wie die Zufallsvariable in der Grundgesamtheit besitzen, wird durch die Zufallsauswahl mit Zurücklegen eine einfache Zufallsstichprobe realisiert.
Zufallsauswahl ohne Zurücklegen
Aus der Grundgesamtheit werden Klausuren ohne Zurücklegen entnommen.
Man erhält wie vorher die Stichprobenvariablen und .
Die Tabelle 6 zeigt alle möglichen Stichproben vom Umfang ohne Zurücklegen und unter Beachtung der Reihenfolge.
Tabelle 6:
1. Klausur | 2. Klausur | ||||||
10 | 11 | 11 | 12 | 12 | 12 | 16 | |
10 | 10;11 | 10;11 | 10;12 | 10;12 | 10;12 | 10;16 | |
11 | 11;10 | 11;11 | 11;12 | 11;12 | 11;12 | 11;16 | |
11 | 11;10 | 11;11 | 11;12 | 11;12 | 11;12 | 11;16 | |
12 | 12;10 | 12;11 | 12;11 | 12;12 | 12;12 | 12;16 | |
12 | 12;10 | 12;11 | 12;11 | 12;12 | 12;12 | 12;16 | |
12 | 12;10 | 12;11 | 12;11 | 12;12 | 12;12 | 12;16 | |
16 | 16;10 | 16;11 | 16;11 | 16;12 | 16;12 | 16;12 |
Die Wahrscheinlichkeit, eine dieser Stichproben zu erhalten, beträgt .
Aus der Tabelle 6 ergeben sich die Wahrscheinlichkeitsfunktionen für und
Tabelle 7:
Die Übereinstimmung der Wahrscheinlichkeitsfunktion mit der Verteilung der Grundgesamtheit ist nicht verwunderlich, da für die Ziehung der 1. Klausur steht.
Wenn ohne Zurücklegen gezogen wird, ändert sich jedoch die Verteilung der Grundgesamtheit in Abhängigkeit davon, welcher Wert der Zufallsvariablen (Punktzahl einer Klausur) bei der 1. Ziehung auftrat.
Wenn die erste gezogene Klausur z.B. die Punktzahl 10 hatte , dann ist die bedingte Wahrscheinlichkeit, bei der zweiten gezogenen Klausur die Punktzahl 10 zu erhalten , denn unter den verbliebenen 6 Klausuren in der Grundgesamtheit gibt es keine weitere Klausur mit der Punktzahl 10.
Die Tabelle 8 enthält alle bedingten Wahrscheinlichkeiten.
Tabelle 8:
Die Wahrscheinlichkeit, dass einen bestimmten Wert annimmt, d.h. , ergibt sich nach dem Satz der totalen Wahrscheinlichkeit:
Diese berechneten Wahrscheinlichkeiten entsprechen denen aus Tabelle 7..
Damit ist identisch mit und beide stimmen mit der Verteilung der Grundgesamtheit überein.
Die Stichprobenvariablen und sind aber nicht unabhängig voneinander.
Dies lässt sich zum einen daran sehen, dass die bedingten Verteilungen (in der Tabelle 8) nicht übereinstimmen.
Es lässt sich zum anderen anhand der zweidimensionalen Verteilung erkennen, die aus der Tabelle 6 ermittelt werden kann.
Tabelle 9:
10 | 11 | 12 | 16 | ||
10 | 0 | ||||
11 | |||||
12 | |||||
16 | |||||
1 |
Es ist: .
Die Zufallsvariablen und sind somit nicht unabhängig.
Fazit:
Die Stichprobenvariablen und sind zwar identisch verteilt und haben die gleiche Verteilung wie die Zufallsvariable in der Grundgesamtheit, aber sie sind abhängig.
Durch die Zufallsauswahl ohne Zurücklegen wird somit eine uneingeschränkte Zufallsstichprobe jedoch keine einfache Zufallsstichprobe realisiert.