Bestimmung des Stichprobenumfangs
Aus MM*Stat
Grundbegriffe
Bestimmung des Stichprobenumfangs
Die Länge eines Konfidenzintervalls hängt neben dem Konfidenzniveau in der Regel auch vom Stichprobenumfang ab.
Hält man den Stichprobenumfang konstant, dann führt eine Erhöhung des Konfidenzniveaus unter sonst gleichen Bedingungen zu einem breiteren Konfidenzintervall.
Größere Sicherheit, dass der unbekannte Wert des Parameters in dem v liegt, ist somit mit einer unpräziseren Aussage über seine Lage verbunden.
Hält man das Konfidenzniveau konstant, dann führt eine Vergrößerung des Stichprobenumfangs unter sonst gleichen Bedingungen zu einer kleineren Länge des Konfidenzintervalls, d.h. es wird schmaler, womit die Präzision der Aussage erhöht wird.
Das ist auch intuitiv einleuchtend, da in einer Stichprobe größeren Umfangs auch mehr Information über die Grundgesamtheit enthalten ist.
Im Zusammenspiel von Konfidenzniveau und Stichprobenumfang lässt sich somit eine Steuerung für das Konfidenzintervall erreichen.
Bisher wurde davon ausgegangen, dass für die Bestimmung eines Konfidenzintervalls für den unbekannten Parameter sowohl das Konfidenzniveau als auch der Stichprobenumfang vorgegeben wurden.
Bei vielen praktischen Anwendungen ist jedoch eine Intervallschätzung mit vorgegebener Sicherheit und vorgegebener Genauigkeit erforderlich, d.h. es wird das Konfidenzniveau und die Länge des Konfidenzintervalls vorgegeben.
Die daraus resultierende Frage ist:
Wie groß muss der Stichprobenumfang gewählt werden, um beide vorgegebenen Bedingungen einzuhalten?
Diese Problemstellung soll anhand des Konfidenzintervalls für den Erwartungswert und für den Anteilswert dargelegt werden.
Eingeschränkt wird die Betrachtung auf einfache Zufallsstichproben bzw. auf den Fall, dass der Umfang der Grundgesamtheit genügend groß ist, dass von der Realisierung einer einfachen Zufallsstichprobe ausgegangen werden kann.
Konfidenzintervall für den Erwartungswert bei bekannter Varianz
Vorausgesetzt wird eine normalverteilte Grundgesamtheit.
Eine exakte Ermittlung des notwendigen Stichprobenumfanges ist nur möglich, wenn die Länge des Konfidenzintervalls keine Zufallsvariable ist, d.h. nicht von den Stichprobenergebnissen abhängt.
Das ist nur bei bekannter Varianz der Grundgesamtheit bzw. begründeten Annahmen über gegeben.
In diesem Fall hängt die Länge des Konfidenzintervalls für
vom Konfidenzniveau und vom Stichprobenumfang , jedoch nicht vom Stichprobenergebnis ab.
Werden die Länge (bzw. der Schätzfehler ) und das Konfidenzniveau vorgegeben, ist der gesuchte Stichprobenumfang die kleinste ganze Zahl, die die Bedingung
erfüllt. Um ein Konfidenzintervall mit der geforderten Länge und dem Konfidenzniveau zu erhalten, muss also mindestens die angegebene Größe aufweisen.
Konfidenzintervall für den Erwartungswert bei unbekannter Varianz
Vorausgesetzt wird eine normalverteilte Grundgesamtheit.
Bei unbekannter Varianz der Grundgesamtheit hängt die Länge des Konfidenzintervalls für
über die Standardabweichung auch vom Stichprobenergebnis ab.
Des weiteren ist zum Auffinden von aus der Tabelle der t-Verteilung neben dem Konfidenzniveau auch die Anzahl der Freiheitsgrade und damit der Stichprobenumfang erforderlich.
Zur Bestimmung des notwendigen Stichprobenumfanges bei vorgegebener Länge und vorgegebenem Konfidenzniveau gibt es mehrstufige bzw. sequentielle Verfahren.
Konfidenzintervall für Anteilswert
Sofern eine Approximation durch die Normalverteilung möglich ist, ergab sich die Länge des Konfidenzintervalls für zu
,
woraus man durch einfache Umformungen erhält:
Bei Vorgabe einer geforderten Länge des Konfidenzintervalls bzw. eines Schätzfehlers und Vorgabe des Konfidenzniveaus tritt trotzdem ein gravierendes Problem auf:
Der zu berechnende Stichprobenumfang ist über vom Stichprobenergebnis abhängig, das aber noch nicht vorliegen kann, da der Stichprobenumfang vorher bestimmt werden soll.
Es gibt grundsätzlich zwei Möglichkeiten, zu einer Abschätzung von zu gelangen:
- wird durch das Ergebnis einer Vorstichprobe bzw. aus einer früheren Erhebung ersetzt.
- Es wird von dem Anteilswert ausgegangen, für den das Produkt maximal wird.
- Das ist für und der Fall. Für die Festsetzung des Stichprobenumfanges ist dies der ungünstigste Fall, denn für jeden anderen Wert von würde sich ein kleinerer Stichprobenumfang ergeben.
- Damit folgt, dass der gesuchte Stichprobenumfang die kleinste ganze Zahl ist, die die Bedingung
- erfüllt. Um ein Konfidenzintervall mit der geforderten Länge und dem Konfidenzniveau zu erhalten, muss mindestens die angegebene Größe aufweisen.
- Es ist darüber hinaus jedoch darauf zu achten, dass der Stichprobenumfang stets so groß gewählt wird, dass die Approximationsbedingung für eine Normalverteilung erfüllt ist.
Beispiele
Zugverspätungen
Die Bimmelbahn AG will eine Pressemitteilung zur Pünktlichkeit ihrer Züge im gegenwärtigen Quartal herausgeben, die Angaben über die durchschnittliche Dauer der Verspätungen und den Anteil pünktlicher Züge enthalten soll.
Dazu soll jeweils eine Intervallschätzung auf der Basis einer Zufallsstichprobe erfolgen.
Konfidenzintervall für den Erwartungswert
Wie groß muss der Stichprobenumfang gewählt werden, um ein Konfidenzintervall für die im Mittel zu erwartende Dauer der Verspätungen zum Konfidenzniveau von und einem Schätzfehler von 30 Minuten zu bestimmen?
Dabei wird von der Annahme ausgegangen, dass die Zufallsvariable "Dauer der Verspätungen" normalverteilt ist mit Erwartungswert und Varianz .
Entsprechend der Frage handelt sich um ein Konfidenzintervall für .
Aus der Tabelle der Verteilungsfunktion der Standardnormalverteilung entnimmt man für die vorgegebene Wahrscheinlichkeit von 0,90 den Wert .
Da ebenfalls unbekannt ist, wird auf das gleiche Quartal des Vorjahres zurückgegriffen, wofür die Dauer der Verspätung aller Züge vorliegt und unterstellt, dass die dafür errechnete Standardabweichung von Minuten auch im gegenwärtigen Quartal zutrifft.
Damit ergibt sich für den notwendigen Stichprobenumfang:
Der Stichprobenumfang muss mindestens 15 betragen, um die Vorgaben an das Konfidenzintervall betreffend die Sicherheit und die Genauigkeit einzuhalten.
Konfidenzintervall für den Anteilswert
Wie groß muss der Stichprobenumfang gewählt werden, um ein Konfidenzintervall für den unbekannten Anteil pünktlicher Züge zum Konfidenzniveau von und einem Schätzfehler von 0,05 zu bestimmen?
Wenn der Stichprobenumfang auf jeden Fall so groß gewählt wird, dass die Approximationsbedingung für eine Normalverteilung erfüllt ist (Faustregel: ), findet man zum vorgegebenen Konfidenzniveau in der Tabelle der Verteilungsfunktion der Standardnormalverteilung den Wert .
Da in der Formel zur Bestimmung von
unbekannt ist, wäre es naheliegend, wie bei Frage 1 das Ergebnis des gleichen Quartals des Vorjahres zu verwenden, in dem der Anteil pünktlicher Züge betrug.
Aufgrund zahlreicher Baustellen und einiger Unwetter im gegenwärtigen Quartal kann jedoch nicht davon ausgegangen werden, dass dieser Wert gehalten werden kann.
Es wird deshalb der für die Festsetzung des Stichprobenumfanges ungünstigste Fall gewählt.
Man befindet sich damit hinsichtlich des Stichprobenumfanges immer auf der "sicheren" Seite, denn für jeden anderen Wert von würde sich ein kleinerer Stichprobenumfang ergeben.
Einsetzen der Werte ergibt:
Um die geforderte Sicherheit und Genauigkeit eines Konfidenzintervalls für den unbekannten Anteil pünktlicher Züge einzuhalten, ist mindestens ein Stichprobenumfang von erforderlich.
5%-Hürde
Der Vorsitzende einer kleinen Partei will unbedingt wissen, ob seine Partei bei der bevorstehenden Wahl die 5% Hürde überspringen wird.
Er vereinbart daher einen Termin mit einem Statistiker, um einen Auftrag für eine Wählerbefragung zu besprechen.
Bei dem Dialog weist der Statistiker auf folgende wichtige Punkte hin:
- Um den genauen Stimmenanteil zu erhalten, müsste man alle Wähler (d.h. alle Personen der Grundgesamtheit) befragen.
- Der Stimmenanteil in einer Stichprobe erlaubt nur einen unsicheren Rückschluss auf den Stimmenanteil in der Grundgesamtheit.
- Ein Konfidenzintervall erlaubt einen Rückschluss mit "kontrollierter Unsicherheit" (Länge, Konfidenzniveau)
- Länge und Sicherheitswahrscheinlichkeit können vom Anwender (dem Politiker) vorgegeben werden.
- Je geringer die Länge und je höher die Sicherheitswahrscheinlichkeit, desto höher der benötigte Stichprobenumfang.
Auf Grund der Vorgaben des Politikers berechnet der Statistiker den nötigen Stichprobenumfang mit Hilfe der Formel
Da unbekannt ist, verwendet der Statistiker den - nach Einschätzung des Politikers - höchsten zu erwartenden Stimmenanteil (10%).
Mit diesem Vorgehen ist der Statistiker "auf der sicheren Seite", denn der auf Basis von 10% errechnete Stichprobenumfang ist mehr als groß genug, um die vorgegebene Breite und Sicherheitswahrscheinlichkeit einzuhalten, wenn kleiner als 10% ist.